Mittarit, jotka mittaavat mallin MCP-kutsuttavuutta, ovat vihdoin täällä GPT5 on kaukana edellä... Täällä käytetään kaikkia taitoja
Michael Qizhe Shieh
Michael Qizhe Shieh26.8. klo 01.21
Esittelyssä MCPMark, yhteistyö @EvalSysOrg ja @lobehub! Loimme haastavan vertailuarvon MCP:n käytön stressitestaukseen kattavissa yhteyksissä. - 127 asiantuntijoiden luomaa korkealaatuista datanäytettä. - GPT-5 ottaa nykyisen johdon ja saavuttaa 46,96 %:n Pass@1, kun taas muut mallit ovat 10-30 %. - Erilaisia testitapauksia Notionista, Githubista, Filesystemistä, Playwrightista (selain) ja Postgresista. 9🧵s eteenpäin
8,81K