一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

介绍MCPMark，这是与@EvalSysOrg和@lobehub的合作！我们创建了一个具有挑战性的基准，以在全面的上下文中对MCP的使用进行压力测试。 - 由专家创建的127个高质量数据样本。 - GPT-5目前领先，Pass@1达到了46.96%，而其他模型的范围在10-30%之间。 - 在Notion、Github、文件系统、Playwright（浏览器）和Postgres上进行了多样化的测试案例。 9🧵s在前

41.1K