Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Este artigo de Harvard e MIT responde discretamente à questão mais importante sobre IA que ninguém avalia corretamente:
Os LLMs conseguem realmente descobrir ciência, ou são apenas bons em falar sobre isso?
O artigo chama-se “Avaliando Modelos de Linguagem de Grande Escala na Descoberta Científica”, e em vez de fazer perguntas triviais aos modelos, testa algo muito mais difícil:
Os modelos conseguem formular hipóteses, desenhar experimentos, interpretar resultados e atualizar crenças como verdadeiros cientistas?
Aqui está o que os autores fizeram de diferente 👇
• Eles avaliam LLMs em todo o ciclo de descoberta hipótese → experimento → observação → revisão
• As tarefas abrangem biologia, química e física, não quebra-cabeças simples
• Os modelos devem trabalhar com dados incompletos, resultados ruidosos e pistas falsas
• O sucesso é medido pelo progresso científico, não pela fluência ou confiança
O que descobriram é preocupante.
Os LLMs são razoáveis em sugerir hipóteses, mas frágeis em tudo o que se segue.
✓ Eles se ajustam excessivamente a padrões superficiais
✓ Eles têm dificuldade em abandonar hipóteses ruins mesmo quando as evidências as contradizem
✓ Eles confundem correlação com causalidade
✓ Eles alucinam explicações quando os experimentos falham
✓ Eles otimizam para plausibilidade, não para verdade
Resultado mais impressionante:
`Altas pontuações de referência não correlacionam com a capacidade de descoberta científica.`
Alguns dos principais modelos que dominam testes de raciocínio padrão falham completamente quando forçados a realizar experimentos iterativos e atualizar teorias....

Top
Classificação
Favoritos
