A verdadeira percepção aqui não é "os LLMs são ruins em ciência" (essa é a conclusão óbvia). A história mais profunda é sobre o que isso revela sobre todo o paradigma de escalonamento da IA e para onde a indústria realmente está indo. Este artigo encontra que altas pontuações em benchmarks não se correlacionam com a capacidade de descoberta científica. Modelos que dominam testes de raciocínio falham completamente quando forçados a iterar, revisar e admitir erro. Isso explica por que a OpenAI, a DeepMind e a Anthropic estão todas correndo em direção a sistemas agentes em vez de modelos base maiores. Eles viram versões internas desses dados. Escalonar parâmetros não escala a capacidade de dizer "eu estava errado e aqui está minha nova hipótese". Os cinco modos de falha listados são na verdade o mesmo modo de falha usando diferentes máscaras: os LLMs otimizam para saídas que parecem plausíveis, não para processos que rastreiam a verdade. Overfitting a padrões superficiais, recusando-se a abandonar hipóteses ruins, confundindo correlação com causalidade... tudo isso decorre do treinamento de previsão do próximo token em textos que descrevem conclusões científicas, não em textos que documentam o processo iterativo bagunçado de alcançá-las. O verdadeiro raciocínio científico requer algo que os dados de treinamento quase nunca contêm: os 47 experimentos falhados antes do que funcionou, a hipótese que parecia brilhante por três meses e depois colapsou, o momento em que um pesquisador disse "tudo o que eu acreditava sobre este sistema está errado". O artigo sugere que a serendipidade e a exploração guiada ainda funcionam mesmo quando as pontuações de cenários individuais são baixas. O que isso significa é que os LLMs podem ajudar os cientistas a tropeçar em descobertas que eles não teriam considerado, mas não podem substituir o ciclo de revisão. Isso é, na verdade, otimista para um tipo específico de ferramenta de IA: sistemas que geram muitas hipóteses candidatas para os humanos testarem, em vez de sistemas que afirmam fazer os testes por conta própria. O humano no loop vence. Novamente.