Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A verdadeira percepção aqui não é "os LLMs são ruins em ciência" (essa é a conclusão óbvia).
A história mais profunda é sobre o que isso revela sobre todo o paradigma de escalonamento da IA e para onde a indústria realmente está indo.
Este artigo encontra que altas pontuações em benchmarks não se correlacionam com a capacidade de descoberta científica. Modelos que dominam testes de raciocínio falham completamente quando forçados a iterar, revisar e admitir erro.
Isso explica por que a OpenAI, a DeepMind e a Anthropic estão todas correndo em direção a sistemas agentes em vez de modelos base maiores.
Eles viram versões internas desses dados. Escalonar parâmetros não escala a capacidade de dizer "eu estava errado e aqui está minha nova hipótese".
Os cinco modos de falha listados são na verdade o mesmo modo de falha usando diferentes máscaras: os LLMs otimizam para saídas que parecem plausíveis, não para processos que rastreiam a verdade. Overfitting a padrões superficiais, recusando-se a abandonar hipóteses ruins, confundindo correlação com causalidade... tudo isso decorre do treinamento de previsão do próximo token em textos que descrevem conclusões científicas, não em textos que documentam o processo iterativo bagunçado de alcançá-las.
O verdadeiro raciocínio científico requer algo que os dados de treinamento quase nunca contêm: os 47 experimentos falhados antes do que funcionou, a hipótese que parecia brilhante por três meses e depois colapsou, o momento em que um pesquisador disse "tudo o que eu acreditava sobre este sistema está errado".
O artigo sugere que a serendipidade e a exploração guiada ainda funcionam mesmo quando as pontuações de cenários individuais são baixas.
O que isso significa é que os LLMs podem ajudar os cientistas a tropeçar em descobertas que eles não teriam considerado, mas não podem substituir o ciclo de revisão.
Isso é, na verdade, otimista para um tipo específico de ferramenta de IA: sistemas que geram muitas hipóteses candidatas para os humanos testarem, em vez de sistemas que afirmam fazer os testes por conta própria.
O humano no loop vence. Novamente.
Top
Classificação
Favoritos
