A verdadeira ideia aqui não é "LLMs são ruins em ciência" (essa é a visão óbvia). A história mais profunda é sobre o que isso revela sobre todo o paradigma de escalonamento da IA e para onde a indústria realmente está caminhando. Este artigo constata que pontuações altas de referência não se correlacionam com a capacidade de descoberta científica. Modelos que dominam os testes de raciocínio falham completamente quando são forçados a iterar, revisar e admitir erros. Isso explica por que OpenAI, DeepMind e Anthropic estão correndo para sistemas agentivos em vez de modelos base maiores. Eles viram versões internas desses dados. Escalar parâmetros não escala a capacidade de dizer "Eu estava errado e aqui está minha nova hipótese." Os cinco modos de falha listados são, na verdade, o mesmo modo de falha usando máscaras diferentes: LLMs otimizam para saídas plausíveis, não para processos de rastreamento da verdade. Ajuste excessivo a padrões superficiais, recusa a abandonar hipóteses ruins, confundir correlação com causalidade... Tudo isso decorre do treinamento de previsão next-token em textos que descrevem conclusões científicas, não em textos que documentam o processo iterativo confuso de alcançá-las. O raciocínio científico real exige algo que os dados de treinamento quase nunca contêm: os 47 experimentos fracassados antes do que funcionou, a hipótese que parecia brilhante por três meses e depois desmoronou, no momento em que um pesquisador disse "tudo o que eu acreditava sobre esse sistema está errado." O artigo sugere que a serendipidade e a exploração guiada ainda funcionam mesmo quando as pontuações individuais de cenários são baixas. Isso significa que os LLMs podem ajudar cientistas a encontrar descobertas que não considerariam, mas não podem substituir o ciclo de revisão. Isso é, na verdade, positivo para um tipo específico de ferramenta de IA: sistemas que geram muitas hipóteses candidatas para humanos testarem, em vez de sistemas que afirmam fazer os testes por conta própria. O humano no circuito vence. De novo.