Říkáme to už nějakou dobu a konečně to všichni dohánějí: více uvažování ≠ větší spolehlivost. Nová empirická studie potvrzuje, že škálování doby testu selhává u faktických úkolů – přesnost se ustálí, zatímco halucinace se často zvýší. Když chyby klesnou, je to kvůli neúčasti, ne kvůli zlepšenému vybavování. Rozšířené řetězce zesilují konfirmační zkreslení a vymýšlejí si důkazy na podporu špatných odpovědí. To je důvod, proč je ověřovací infrastruktura důležitá. Z halucinací se nemůžete dostat rozumem, potřebujete mechanismy konsensu.