Prawdziwy wgląd tutaj nie polega na tym, że „LLM są złe w nauce” (to oczywiste stwierdzenie). Głębsza historia dotyczy tego, co to ujawnia o całym paradygmacie skalowania AI i dokąd tak naprawdę zmierza branża. Ten artykuł stwierdza, że wysokie wyniki w benchmarkach nie korelują z zdolnością do odkryć naukowych. Modele, które dominują w testach rozumowania, całkowicie zawodzą, gdy są zmuszone do iteracji, rewizji i przyznania się do błędu. To wyjaśnia, dlaczego OpenAI, DeepMind i Anthropic wszyscy ścigają się w kierunku systemów agentowych, a nie większych modeli bazowych. Widzieli wewnętrzne wersje tych danych. Skalowanie parametrów nie zwiększa zdolności do powiedzenia „miałem rację i oto moja nowa hipoteza”. Pięć wymienionych trybów niepowodzenia to tak naprawdę ten sam tryb niepowodzenia w różnych maskach: LLM optymalizują pod kątem wiarygodnie brzmiących wyników, a nie procesów śledzących prawdę. Przeuczenie na powierzchownych wzorcach, odmawianie porzucenia złych hipotez, mylenie korelacji z przyczynowością… to wszystko wynika z treningu na przewidywaniu następnego tokena w tekstach, które opisują wnioski naukowe, a nie tekstach, które dokumentują chaotyczny proces iteracyjny ich osiągania. Prawdziwe rozumowanie naukowe wymaga czegoś, czego dane treningowe prawie nigdy nie zawierają: 47 nieudanych eksperymentów przed tym, który się udał, hipotezy, która wydawała się genialna przez trzy miesiące, a potem się załamała, momentu, w którym badacz powiedział „wszystko, w co wierzyłem o tym systemie, jest błędne”. Artykuł sugeruje, że przypadkowość i ukierunkowane eksploracje wciąż działają, nawet gdy wyniki poszczególnych scenariuszy są niskie. Co to oznacza, to to, że LLM mogą pomóc naukowcom natknąć się na odkrycia, których by nie rozważali, ale nie mogą zastąpić pętli rewizyjnej. To jest w rzeczywistości pozytywne dla konkretnego rodzaju narzędzi AI: systemów, które generują wiele kandydatów hipotez do przetestowania przez ludzi, zamiast systemów, które twierdzą, że same przeprowadzają testy. Człowiek w pętli wygrywa. Jeszcze raz.