介绍MCPMark,这是与@EvalSysOrg和@lobehub的合作! 我们创建了一个具有挑战性的基准,以在全面的上下文中对MCP的使用进行压力测试。 - 由专家创建的127个高质量数据样本。 - GPT-5目前领先,Pass@1达到了46.96%,而其他模型的范围在10-30%之间。 - 在Notion、Github、文件系统、Playwright(浏览器)和Postgres上进行了多样化的测试案例。 9🧵s在前
41.1K