Memperkenalkan MCPMark, kolaborasi dengan @EvalSysOrg dan @lobehub! Kami membuat tolok ukur yang menantang untuk menguji stres penggunaan MCP dalam konteks yang komprehensif. - 127 sampel data berkualitas tinggi yang dibuat oleh para ahli. - GPT-5 memimpin saat ini dan mencapai Pass@1 46,96% sedangkan model lainnya berada di kisaran 10-30%. - Beragam kasus pengujian di Notion, Github, Filesystem, Playwright (browser), dan Postgres. 9🧵detik ke depan
41,11K