Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A verdadeira ideia aqui não é "LLMs são ruins em ciência" (essa é a visão óbvia).
A história mais profunda é sobre o que isso revela sobre todo o paradigma de escalonamento da IA e para onde a indústria realmente está caminhando.
Este artigo constata que pontuações altas de referência não se correlacionam com a capacidade de descoberta científica. Modelos que dominam os testes de raciocínio falham completamente quando são forçados a iterar, revisar e admitir erros.
Isso explica por que OpenAI, DeepMind e Anthropic estão correndo para sistemas agentivos em vez de modelos base maiores.
Eles viram versões internas desses dados. Escalar parâmetros não escala a capacidade de dizer "Eu estava errado e aqui está minha nova hipótese."
Os cinco modos de falha listados são, na verdade, o mesmo modo de falha usando máscaras diferentes: LLMs otimizam para saídas plausíveis, não para processos de rastreamento da verdade. Ajuste excessivo a padrões superficiais, recusa a abandonar hipóteses ruins, confundir correlação com causalidade... Tudo isso decorre do treinamento de previsão next-token em textos que descrevem conclusões científicas, não em textos que documentam o processo iterativo confuso de alcançá-las.
O raciocínio científico real exige algo que os dados de treinamento quase nunca contêm: os 47 experimentos fracassados antes do que funcionou, a hipótese que parecia brilhante por três meses e depois desmoronou, no momento em que um pesquisador disse "tudo o que eu acreditava sobre esse sistema está errado."
O artigo sugere que a serendipidade e a exploração guiada ainda funcionam mesmo quando as pontuações individuais de cenários são baixas.
Isso significa que os LLMs podem ajudar cientistas a encontrar descobertas que não considerariam, mas não podem substituir o ciclo de revisão.
Isso é, na verdade, positivo para um tipo específico de ferramenta de IA: sistemas que geram muitas hipóteses candidatas para humanos testarem, em vez de sistemas que afirmam fazer os testes por conta própria.
O humano no circuito vence. De novo.
Melhores
Classificação
Favoritos
