المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
هل يمكن لعوامل الذكاء الاصطناعي تقييم قابلية تكرار نتائج البحث؟
تظهر ورقتنا #ACL2025 أنها تقصر في REPRO-Bench ، وهو معيار جديد يقيم الوكلاء في مهام استنساخ العلوم الاجتماعية في العالم الحقيقي المكونة من 112 ورقة وملفات PDF كاملة وتعليمات برمجية وبيانات. أعلى درجات وكيلنا أداء <40٪!
1/6

الروابط هنا والموضوع أدناه:
ورق:
رمز:
Substack:
متوسط:
2/6
يتكون REPRO-Bench من 112 مثيل مهمة ، كل منها مبني من جهود التكاثر في العالم الحقيقي التي تم الحصول عليها من مشاريع الاستنساخ الجماعي ، و I4R ، و Retraction Watch ، ومحاولات التكاثر المنشورة على Twitter / X. تتضمن كل مهمة ورقة PDF ورمز الاستنساخ والبيانات وقائمة بالنتائج الرئيسية.
3/6

نقوم بتقييم 3 وكلاء مشهورين على REPRO-Bench. يحقق الوكيل الأفضل أداء ، CORE-Agent ، دقة 21.4٪ فقط ، وهي أقل من التخمين العشوائي (25٪).
4/6
نقدم REPRO-Agent ، وهو وكيل محسن يعتمد على تحليل الفشل الخاص بنا. مع أربع تعليمات إضافية فقط ، يعزز REPRO-Agent الدقة إلى 36.6٪ ، وهو تحسن نسبي بنسبة 71٪ مقارنة ب CORE-Agent ، مع الحفاظ على تكلفة مماثلة.
5/6
هذا العمل مشترك مع @ChuxuanHu وأوستن بيترز وآخرين.
6/6
6.71K
الأفضل
المُتصدِّرة
التطبيقات المفضلة