L'indicateur mesurant la capacité d'appel du modèle MCP est enfin arrivé GPT5 est loin devant... Tout le pouvoir est utilisé ici.
Michael Qizhe Shieh
Michael Qizhe Shieh26 août, 01:21
Présentation de MCPMark, une collaboration avec @EvalSysOrg et @lobehub ! Nous avons créé un benchmark difficile pour tester l'utilisation de MCP dans des contextes complets. - 127 échantillons de données de haute qualité créés par des experts. - GPT-5 prend actuellement la tête avec un Pass@1 de 46,96 %, tandis que les autres modèles se situent dans la plage de 10 à 30 %. - Cas de test divers sur Notion, Github, Filesystem, Playwright (navigateur) et Postgres. 9🧵s à venir
8,81K