المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
المقاييس التي تقيس قابلية استدعاء MCP للنموذج موجودة أخيرا هنا
GPT5 متقدم كثيرا...
يتم استخدام جميع المهارات هنا

26 أغسطس، 01:21
نقدم لكم MCPMark ، تعاون مع @EvalSysOrg و @lobehub!
لقد أنشأنا معيارا صعبا لاختبار الإجهاد باستخدام MCP في سياقات شاملة.
- 127 عينة بيانات عالية الجودة تم إنشاؤها بواسطة الخبراء.
- يأخذ GPT-5 زمام المبادرة الحالية ويحقق Pass@1 بنسبة 46.96٪ بينما تقع الموديلات الأخرى في حدود 10-30٪.
- حالات اختبار متنوعة على Notion و Github و Filesystem و Playwright (متصفح) و Postgres.
9🧵ثوان أمامنا

8.81K
الأفضل
المُتصدِّرة
التطبيقات المفضلة