Temos dito isso há algum tempo e finalmente todos estão se atualizando: mais raciocínio ≠ mais confiabilidade. Um novo estudo empírico confirma que a escalabilidade em tempo de teste falha em tarefas factuais — a precisão se estabiliza enquanto as alucinações muitas vezes aumentam. Quando os erros diminuem, é por abstinência, não por uma melhoria na recordação. Cadeias extensas amplificam o viés de confirmação, fabricando evidências para apoiar respostas erradas. É por isso que a infraestrutura de verificação é importante. Você não pode raciocinar para sair das alucinações, você precisa de mecanismos de consenso.