Vă prezentăm MCPMark, o colaborare cu @EvalSysOrg și @lobehub! Am creat un punct de referință provocator pentru a testa utilizarea MCP în contexte cuprinzătoare. - 127 de mostre de date de înaltă calitate create de experți. - GPT-5 preia conducerea actuală și atinge un Pass@1 de 46,96%, în timp ce celelalte modele se încadrează în intervalul 10-30%. - Diverse cazuri de testare pe Notion, Github, Filesystem, Playwright (browser) și Postgres. 9🧵s înainte
41,12K