نقدم لكم MCPMark ، تعاون مع @EvalSysOrg و @lobehub! لقد أنشأنا معيارا صعبا لاختبار الإجهاد باستخدام MCP في سياقات شاملة. - 127 عينة بيانات عالية الجودة تم إنشاؤها بواسطة الخبراء. - يأخذ GPT-5 زمام المبادرة الحالية ويحقق Pass@1 بنسبة 46.96٪ بينما تقع الموديلات الأخرى في حدود 10-30٪. - حالات اختبار متنوعة على Notion و Github و Filesystem و Playwright (متصفح) و Postgres. 9🧵ثوان أمامنا
‏‎41.1‏K