Os indicadores para medir a capacidade de chamada do modelo MCP finalmente chegaram O GPT5 está muito à frente... Todo o poder está aqui.
Michael Qizhe Shieh
Michael Qizhe Shieh26/08, 01:21
Apresentando o MCPMark, uma colaboração com @EvalSysOrg e @lobehub! Criámos um benchmark desafiador para testar o uso do MCP em contextos abrangentes. - 127 amostras de dados de alta qualidade criadas por especialistas. - O GPT-5 lidera atualmente e alcança um Pass@1 de 46,96%, enquanto os outros modelos ficam na faixa de 10-30%. - Casos de teste diversos no Notion, Github, Filesystem, Playwright (navegador) e Postgres. 9🧵s à frente
9,82K