Présentation de MCPMark, une collaboration avec @EvalSysOrg et @lobehub ! Nous avons créé un benchmark difficile pour tester l'utilisation de MCP dans des contextes complets. - 127 échantillons de données de haute qualité créés par des experts. - GPT-5 prend actuellement la tête avec un Pass@1 de 46,96 %, tandis que les autres modèles se situent dans la plage de 10 à 30 %. - Cas de test divers sur Notion, Github, Filesystem, Playwright (navigateur) et Postgres. 9🧵s à venir
41,1K