Przedstawiamy MCPMark, współpracę z @EvalSysOrg i @lobehub! Stworzyliśmy wymagający benchmark, aby przetestować zastosowanie MCP w różnych kontekstach. - 127 wysokiej jakości próbek danych stworzonych przez ekspertów. - GPT-5 zajmuje obecnie prowadzenie, osiągając Pass@1 na poziomie 46,96%, podczas gdy inne modele mieszczą się w zakresie 10-30%. - Różnorodne przypadki testowe na Notion, Github, Filesystem, Playwright (przeglądarka) i Postgres. 9🧵s przed nami
41,1K