热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
衡量模型 MCP 调用能力的指标终于来了
GPT5 遥遥领先…
功力都用在这里了

8月26日 01:21
介绍MCPMark,这是与@EvalSysOrg和@lobehub的合作!
我们创建了一个具有挑战性的基准,以在全面的上下文中对MCP的使用进行压力测试。
- 由专家创建的127个高质量数据样本。
- GPT-5目前领先,Pass@1达到了46.96%,而其他模型的范围在10-30%之间。
- 在Notion、Github、文件系统、Playwright(浏览器)和Postgres上进行了多样化的测试案例。
9🧵s在前

9.51K
热门
排行
收藏