Presentamos MCPMark, una colaboración con @EvalSysOrg y @lobehub! Creamos un benchmark desafiante para poner a prueba el uso de MCP en contextos completos. - 127 muestras de datos de alta calidad creadas por expertos. - GPT-5 toma la delantera actual y logra un Pass@1 del 46.96%, mientras que los otros modelos se encuentran en el rango del 10-30%. - Casos de prueba diversos en Notion, Github, Filesystem, Playwright (navegador) y Postgres. 9🧵s por delante
41,12K