Finalmente ha llegado el indicador que mide la capacidad de llamada del modelo MCP GPT5 está muy por delante... Todo el poder se ha utilizado aquí.
Michael Qizhe Shieh
Michael Qizhe Shieh26 ago, 01:21
Presentamos MCPMark, una colaboración con @EvalSysOrg y @lobehub! Creamos un benchmark desafiante para poner a prueba el uso de MCP en contextos completos. - 127 muestras de datos de alta calidad creadas por expertos. - GPT-5 toma la delantera actual y logra un Pass@1 del 46.96%, mientras que los otros modelos se encuentran en el rango del 10-30%. - Casos de prueba diversos en Notion, Github, Filesystem, Playwright (navegador) y Postgres. 9🧵s por delante
8,81K