Apresentando o MCPMark, uma colaboração com @EvalSysOrg e @lobehub! Criamos um benchmark desafiador para testar o uso de MCP em contextos abrangentes. - 127 amostras de dados de alta qualidade criadas por especialistas. - O GPT-5 assume a liderança atual e atinge uma Pass@1 de 46,96%, enquanto os outros modelos ficam na faixa de 10-30%. - Diversos casos de teste no Notion, Github, Filesystem, Playwright (navegador) e Postgres. 🧵9 s à frente
41,12K