De indicatoren voor het meten van de oproepcapaciteit van het model MCP zijn eindelijk hier GPT5 is ver vooruit... Alle kracht is hierop gericht
Michael Qizhe Shieh
Michael Qizhe Shieh26 aug, 01:21
Introductie van MCPMark, een samenwerking met @EvalSysOrg en @lobehub! We hebben een uitdagende benchmark gecreëerd om het gebruik van MCP in uitgebreide contexten te testen. - 127 hoogwaardige gegevensmonsters gemaakt door experts. - GPT-5 neemt momenteel de leiding en behaalt een Pass@1 van 46,96%, terwijl de andere modellen zich in het bereik van 10-30% bevinden. - Diverse testgevallen op Notion, Github, Filesystem, Playwright (browser) en Postgres. 9🧵s voor!
9,83K