Este artigo de Harvard e MIT responde discretamente à questão mais importante sobre IA que ninguém avalia corretamente: Os LLMs conseguem realmente descobrir ciência, ou são apenas bons em falar sobre isso? O artigo chama-se “Avaliando Modelos de Linguagem de Grande Escala na Descoberta Científica”, e em vez de fazer perguntas triviais aos modelos, testa algo muito mais difícil: Os modelos conseguem formular hipóteses, desenhar experimentos, interpretar resultados e atualizar crenças como verdadeiros cientistas? Aqui está o que os autores fizeram de diferente 👇 • Eles avaliam LLMs em todo o ciclo de descoberta hipótese → experimento → observação → revisão • As tarefas abrangem biologia, química e física, não quebra-cabeças simples • Os modelos devem trabalhar com dados incompletos, resultados ruidosos e pistas falsas • O sucesso é medido pelo progresso científico, não pela fluência ou confiança O que descobriram é preocupante. Os LLMs são razoáveis em sugerir hipóteses, mas frágeis em tudo o que se segue. ✓ Eles se ajustam excessivamente a padrões superficiais ✓ Eles têm dificuldade em abandonar hipóteses ruins mesmo quando as evidências as contradizem ✓ Eles confundem correlação com causalidade ✓ Eles alucinam explicações quando os experimentos falham ✓ Eles otimizam para plausibilidade, não para verdade Resultado mais impressionante: `Altas pontuações de referência não correlacionam com a capacidade de descoberta científica.` Alguns dos principais modelos que dominam testes de raciocínio padrão falham completamente quando forçados a realizar experimentos iterativos e atualizar teorias....