هل يمكن لعوامل الذكاء الاصطناعي تقييم قابلية تكرار نتائج البحث؟ تظهر ورقتنا #ACL2025 أنها تقصر في REPRO-Bench ، وهو معيار جديد يقيم الوكلاء في مهام استنساخ العلوم الاجتماعية في العالم الحقيقي المكونة من 112 ورقة وملفات PDF كاملة وتعليمات برمجية وبيانات. أعلى درجات وكيلنا أداء <40٪! 1/6
الروابط هنا والموضوع أدناه: ورق: رمز: Substack: متوسط: 2/6
يتكون REPRO-Bench من 112 مثيل مهمة ، كل منها مبني من جهود التكاثر في العالم الحقيقي التي تم الحصول عليها من مشاريع الاستنساخ الجماعي ، و I4R ، و Retraction Watch ، ومحاولات التكاثر المنشورة على Twitter / X. تتضمن كل مهمة ورقة PDF ورمز الاستنساخ والبيانات وقائمة بالنتائج الرئيسية. 3/6
نقوم بتقييم 3 وكلاء مشهورين على REPRO-Bench. يحقق الوكيل الأفضل أداء ، CORE-Agent ، دقة 21.4٪ فقط ، وهي أقل من التخمين العشوائي (25٪). 4/6
نقدم REPRO-Agent ، وهو وكيل محسن يعتمد على تحليل الفشل الخاص بنا. مع أربع تعليمات إضافية فقط ، يعزز REPRO-Agent الدقة إلى 36.6٪ ، وهو تحسن نسبي بنسبة 71٪ مقارنة ب CORE-Agent ، مع الحفاظ على تكلفة مماثلة. 5/6
هذا العمل مشترك مع @ChuxuanHu وأوستن بيترز وآخرين. 6/6
‏‎6.71‏K