モデルのMCP呼び出し可能性を測定するメトリックがついに登場しました GPT5ははるかに先を行っています... ここではすべてのスキルが使用されます
Michael Qizhe Shieh
Michael Qizhe Shieh23時間前
@EvalSysOrgと@lobehubとのコラボレーションMCPMarkのご紹介です! 包括的なコンテキストでのMCPの使用をストレステストするための挑戦的なベンチマークを作成しました。 - 専門家によって作成された127の高品質のデータサンプル。 - GPT-5 が現在リードし、46.96% のPass@1を達成しますが、他のモデルは 10-30% の範囲に収まります。 - Notion、Github、Filesystem、Playwright (ブラウザ)、Postgres での多様なテストケース。 9🧵秒先
8.79K