@EvalSysOrgと@lobehubとのコラボレーションMCPMarkのご紹介です! 包括的なコンテキストでのMCPの使用をストレステストするための挑戦的なベンチマークを作成しました。 - 専門家によって作成された127の高品質のデータサンプル。 - GPT-5 が現在リードし、46.96% のPass@1を達成しますが、他のモデルは 10-30% の範囲に収まります。 - Notion、Github、Filesystem、Playwright (ブラウザ)、Postgres での多様なテストケース。 9🧵秒先
41.08K