熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
介紹MCPMark,這是與@EvalSysOrg和@lobehub的合作!
我們創建了一個具有挑戰性的基準,以在全面的上下文中對MCP的使用進行壓力測試。
- 由專家創建的127個高質量數據樣本。
- GPT-5目前領先,Pass@1達到了46.96%,而其他模型的範圍在10-30%之間。
- 在Notion、Github、文件系統、Playwright(瀏覽器)和Postgres上進行了多樣化的測試案例。
9🧵s在前

41.1K
熱門
排行
收藏