تجيب هذه الورقة من هارفارد ومعهد ماساتشوستس للتكنولوجيا بهدوء على أهم سؤال الذكاء الاصطناعي الذي لا يقارن به أحد بشكل صحيح: هل يمكن لنماذج اللغة الكبيرة فعلا اكتشاف العلم، أم أنهم فقط جيدون في الحديث عنه؟ تسمى الورقة "تقييم نماذج اللغة الكبيرة في الاكتشافات العلمية"، وبدلا من طرح أسئلة معلومات عامة عن النماذج، تختبر شيئا أكثر صعوبة: هل يمكن للنماذج أن تشكل فرضيات، وتصمم تجارب، وتفسر النتائج، وتحدث المعتقدات مثل العلماء الحقيقيين؟ إليك ما فعله المؤلفون بشكل 👇 مختلف • يقومون بتقييم نماذج اللغة الكبيرة عبر فرضية حلقة الاكتشاف الكاملة → التجربة → الملاحظة → المراجعة • تشمل المهام الأحياء والكيمياء والفيزياء، وليس الألغاز اللعبة • يجب أن تعمل النماذج مع البيانات غير المكتملة، والنتائج المزعجة، والخيوط الزائفة • يقاس النجاح بالتقدم العلمي، وليس بالطلاقة أو الثقة بالنفس ما وجدوه كان صادما. نماذج اللغة الكبيرة جيدة في اقتراح الفرضيات، لكنها هشة في كل ما يليها. ✓ تتناسب أكثر من اللازم مع أنماط السطح ✓ يكافحون للتخلي عن الفرضيات السيئة حتى عندما تتناقضها الأدلة ✓ يخلطون بين الارتباط والسببية ✓ يهلوسون تفسيرات عندما تفشل التجارب ✓ هم يحسنون من أجل المعقولية، وليس الحقيقة أبرز نتيجة لافتة للنظر: 'الدرجات العالية في المعايير لا ترتبط بقدرة الاكتشاف العلمي.' بعض النماذج العليا التي تهيمن على اختبارات التفكير القياسية تفشل تماما عندما تجبر على إجراء تجارب تكرارية وتحديث النظريات....