Valorile care măsoară apelabilitatea MCP a modelului sunt în sfârșit aici GPT5 este cu mult înainte... Toate abilitățile sunt folosite aici
Michael Qizhe Shieh
Michael Qizhe Shieh26 aug., 01:21
Vă prezentăm MCPMark, o colaborare cu @EvalSysOrg și @lobehub! Am creat un punct de referință provocator pentru a testa utilizarea MCP în contexte cuprinzătoare. - 127 de mostre de date de înaltă calitate create de experți. - GPT-5 preia conducerea actuală și atinge un Pass@1 de 46,96%, în timp ce celelalte modele se încadrează în intervalul 10-30%. - Diverse cazuri de testare pe Notion, Github, Filesystem, Playwright (browser) și Postgres. 9🧵s înainte
8,82K