Vi har sagt dette en stund nå, og endelig tar alle igjen: mer resonnement ≠ mer pålitelighet. Ny empirisk studie bekrefter at testtidsskalering mislykkes for faktiske oppgaver - nøyaktighetsplatåer mens hallusinasjoner ofte øker. Når feil faller, er det fra å avstå fra å stemme, ikke forbedret tilbakekalling. Forlengede kjeder forsterker bekreftelsesskjevhet, og fabrikkerer bevis for å støtte feil svar. Dette er grunnen til at verifiseringsinfrastruktur er viktig. Du kan ikke resonnere deg ut av hallusinasjoner, du trenger konsensusmekanismer.