الفكرة الحقيقية هنا ليست "نماذج اللغة الكبيرة سيئة في العلم" (هذا هو الرأي الواضح). القصة الأعمق تدور حول ما يكشفه هذا عن نموذج التوسع الذكاء الاصطناعي بأكمله وإلى أين تتجه الصناعة فعليا. تجد هذه الورقة أن الدرجات المرجعية العالية لا ترتبط بالقدرة على الاكتشاف العلمي. النماذج التي تهيمن على اختبارات الاستدلال تفشل تماما عندما تجبر على التكرار والمراجعة والاعتراف بالأخطاء. وهذا يفسر لماذا تتسابق OpenAI وDeepMind وAnthropic نحو أنظمة وكلاء بدلا من نماذج أساسية أكبر. لقد شاهدوا نسخا داخلية من هذه البيانات. القياس في المعايير لا يضخم القدرة على قول "كنت مخطئا وهذه فرضيتي الجديدة." أوضاع الفشل الخمسة المذكورة هي في الواقع نفس وضع الفشل مع ارتداء أقنعة مختلفة: نماذج اللغة الكبيرة تحسب نتائج تبدو معقولة، وليس لعمليات تتبع الحقيقة. التكيف المفرط مع أنماط السطح، رفض التخلي عن الفرضيات السيئة، خلط الارتباط بالسببية... كل هذه المصادر تنبع من تدريب التنبؤ بالرمز التالي على نص يصف الاستنتاجات العلمية، وليس نصا يوثق العملية التكرارية الفوضوية للوصول إليها. التفكير العلمي الحقيقي يتطلب شيئا نادرا ما تحتويه بيانات التدريب: ال47 الفشل قبل التجربة التي نجحت، الفرضية التي بدت رائعة لمدة ثلاثة أشهر ثم انهارت، اللحظة التي قال فيها باحث "كل ما كنت أؤمن به عن هذا النظام خاطئ." تشير الورقة إلى أن الصدفة والاستكشاف الموجه لا يزالان فعالين حتى عندما تكون درجات السيناريو الفردية منخفضة. ما يعنيه ذلك هو أن نماذج اللغة الكبيرة قد تساعد العلماء على اكتشافات لم يكونوا ليفكروا فيها، لكنها لا تستطيع استبدال حلقة المراجعة. هذا في الواقع أمر متفائل لنوع محدد من أدوات الذكاء الاصطناعي: أنظمة تولد العديد من الفرضيات المرشحة للبشر لاختبارها، بدلا من الأنظمة التي تدعي أنها تقوم بالاختبار بنفسها. الإنسان في الحلقة هو الفائز. مرة أخرى.