Представляємо MCPMark, співпрацю з @EvalSysOrg та @lobehub! Ми створили складний бенчмарк для стрес-тестування використання MCP у всеосяжних контекстах. - 127 якісних зразків даних, створених експертами. - GPT-5 займає поточне лідерство і досягає Pass@1 46,96%, тоді як інші моделі потрапляють у діапазон 10-30%. - Різноманітні тест-кейси на Notion, Github, Filesystem, Playwright (браузер) та Postgres. 🧵Попереду 9 с
41,1K