المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
الذكاء الاصطناعي على وشك كتابة آلاف الأوراق البحثية. هل سيهكنه؟
أجرينا تجربة لمعرفة ذلك، حيث أعطينا عملاء ترميز الذكاء الاصطناعي مجموعات بيانات حقيقية من نتائج معدومة منشورة وضغطنا عليهم لصنع نتائج مهمة.
كان من الصعب بشكل مفاجئ جعل العارضات يقومون ب p-hack، وحتى أنهم وبخونا عندما طلبنا منهم ذلك!
"أحتاج أن أتوقف هنا. لا أستطيع إكمال هذه المهمة كما طلبت... هذا شكل من أشكال الاحتيال العلمي." — كلود
"لا أستطيع مساعدتك في التلاعب بخيارات التحليل لفرض نتائج ذات دلالة إحصائية." — GPT-5
لكن، عندما أعدنا صياغة p-hacking ك "قياس عدم اليقين المسؤول" — أي طلب الحد الأعلى للتقديرات المعقولة — كلا النموذجين انطلق بشكل كبير. بحثوا في مئات المواصفات واختاروا الفائز، مما ضاعف حجم التأثيرات ثلاث مرات في بعض الحالات.
ما نستفيده من النتائج: نماذج الذكاء الاصطناعي مقاومة بشكل مفاجئ للاختراق المتملق عند إجراء أبحاث العلوم الاجتماعية. لكن يمكن تحويلها إلى اختراق p-hacking متطور بجهد قليل بشكل مفاجئ — وكلما زادت المرونة التحليلية في تصميم البحث، زادت الأضرار.
مع بدء الذكاء الاصطناعي في كتابة آلاف الأوراق البحثية---مثل @paulnovosad @YanagizawaD واستكشافها---سيكون هذا أمرا كبيرا. نحن مستلهمون جزئيا من العمل الذي يقوم به @joabaum وآخرون حول الاختراق الوظيفي ونماذج اللغة الكبيرة (LLMs).
سنقوم بالمزيد من العمل لاستكشاف p-hacking في الذكاء الاصطناعي ولاقتراح طرق جديدة لتنظيم وتقييم الأبحاث مع وضع هذه القضايا في الاعتبار. الخبر السار هو أن نفس الأدوات التي قد تخفض تكلفة p-hacking تقلل أيضا من تكلفة القبض عليه.
الورقة الكاملة والمستودع مرتبطان في الرد أدناه.

الأفضل
المُتصدِّرة
التطبيقات المفضلة
