La véritable révélation ici n'est pas que "les LLM sont mauvais en science" (c'est l'opinion évidente). L'histoire plus profonde concerne ce que cela révèle sur l'ensemble du paradigme de mise à l'échelle de l'IA et où l'industrie se dirige réellement. Cet article constate que de bons scores de référence ne corrèlent pas avec la capacité de découverte scientifique. Les modèles qui dominent les tests de raisonnement échouent complètement lorsqu'ils sont contraints d'itérer, de réviser et d'admettre leurs erreurs. Cela explique pourquoi OpenAI, DeepMind et Anthropic se précipitent tous vers des systèmes agentiques au lieu de modèles de base plus grands. Ils ont vu des versions internes de ces données. L'augmentation des paramètres ne permet pas d'augmenter la capacité à dire "j'avais tort et voici ma nouvelle hypothèse". Les cinq modes d'échec énumérés sont en réalité le même mode d'échec portant des masques différents : les LLM optimisent pour des résultats plausibles, et non pour des processus de suivi de la vérité. Le surajustement aux motifs de surface, le refus d'abandonner de mauvaises hypothèses, la confusion entre corrélation et causalité... tout cela découle de l'entraînement à la prédiction du prochain token sur des textes qui décrivent des conclusions scientifiques, et non sur des textes qui documentent le processus itératif désordonné pour y parvenir. Un véritable raisonnement scientifique nécessite quelque chose que les données d'entraînement contiennent presque jamais : les 47 expériences échouées avant celle qui a fonctionné, l'hypothèse qui semblait brillante pendant trois mois puis s'est effondrée, le moment où un chercheur a dit "tout ce que je croyais sur ce système est faux". L'article suggère que la sérendipité et l'exploration guidée fonctionnent toujours même lorsque les scores des scénarios individuels sont bas. Ce que cela signifie, c'est que les LLM pourraient aider les scientifiques à tomber sur des découvertes qu'ils n'auraient pas envisagées, mais ils ne peuvent pas remplacer la boucle de révision. C'est en fait prometteur pour un type spécifique d'outil d'IA : des systèmes qui génèrent de nombreuses hypothèses candidates pour que les humains les testent, plutôt que des systèmes qui prétendent faire les tests eux-mêmes. L'humain dans la boucle l'emporte. Encore une fois.