Die Metrik zur Messung der Anrufkapazität des Modells MCP ist endlich da GPT5 ist weit voraus... Die gesamte Kraft wird hier eingesetzt
Michael Qizhe Shieh
Michael Qizhe Shieh26. Aug., 01:21
Einführung von MCPMark, einer Zusammenarbeit mit @EvalSysOrg und @lobehub! Wir haben einen herausfordernden Benchmark erstellt, um die Nutzung von MCP in umfassenden Kontexten zu testen. - 127 hochwertige Datenproben, die von Experten erstellt wurden. - GPT-5 führt derzeit mit einer Pass@1 von 46,96%, während die anderen Modelle im Bereich von 10-30% liegen. - Vielfältige Testfälle auf Notion, Github, Filesystem, Playwright (Browser) und Postgres. 9🧵s voraus
9,51K