Lo diciamo da un po' e finalmente tutti si stanno aggiornando: più ragionamento ≠ maggiore affidabilità. Un nuovo studio empirico conferma che la scalabilità durante il test fallisce per compiti fattuali: l'accuratezza si stabilizza mentre le allucinazioni spesso aumentano. Quando gli errori diminuiscono, è per astensione, non per un miglior richiamo. Catene estese amplificano il bias di conferma, fabbricando prove per supportare risposte sbagliate. Ecco perché l'infrastruttura di verifica è importante. Non puoi ragionare per uscire dalle allucinazioni, hai bisogno di meccanismi di consenso.