Skutečný postřeh zde není "LLM jsou špatní ve vědě" (to je zřejmý názor). Hlubší příběh je o tom, co to odhaluje o celém paradigmatu škálování AI a o tom, kam se odvětví skutečně ubírá. Tento článek zjistil, že vysoká referenční skóre nekorelují se schopností vědeckého objevování. Modely, které dominují testům uvažování, zcela selžou, když jsou nuceny iterovat, upravovat a přiznat chyby. To vysvětluje, proč OpenAI, DeepMind a Anthropic všichni spěchají k agentickým systémům místo větších základních modelů. Viděli interní verze těchto dat. Škálování parametrů neumožňuje říct "Mýlil jsem se a tady je moje nová hypotéza." Pět uvedených režimů selhání je ve skutečnosti stejný režim selhání, jen s různými maskami: LLM optimalizují pro výstupy znějící věrohodně, nikoli pro procesy sledování pravdivosti. Přemíra na povrchové vzory, odmítání opustit špatné hypotézy, zaměňování korelace s kauzalitou... Všechny tyto vycházejí z tréninku dalšího tokenu na textu, který popisuje vědecké závěry, nikoli z textu, který dokumentuje chaotický, iterativní proces jejich dosažení. Skutečné vědecké uvažování vyžaduje něco, co tréninková data téměř nikdy neobsahují: 47 neúspěšných experimentů před tím, který fungoval, hypotézu, která tři měsíce vypadala skvěle a pak se zhroutila, ve chvíli, kdy výzkumník řekl: "Všechno, čemu jsem o tomto systému věřil, je špatně." Článek naznačuje, že serendipity a řízené zkoumání fungují i tehdy, když jsou individuální skóre scénářů nízké. To znamená, že LLM mohou pomoci vědcům narazit na objevy, které by jinak nezvažovali, ale nemohou nahradit smyčku revizí. To je ve skutečnosti optimistické pro konkrétní typ AI nástroje: systémy, které generují mnoho kandidátních hypotéz pro testování lidí, místo systémů, které tvrdí, že testování provádějí samy. Člověk v kruhu vyhrává. Zase.