Vi har sagt detta ett tag nu och äntligen kommer alla ikapp: mer resonemang ≠ mer tillförlitlighet. Ny empirisk studie bekräftar att testtidsskalning misslyckas för faktiska uppgifter - noggrannheten planar ut medan hallucinationer ofta ökar. När felen minskar beror det på att man avstår från att rösta, inte på att man kommer ihåg. Förlängda kedjor förstärker bekräftelsebias och fabricerar bevis för att stödja felaktiga svar. Det är därför verifieringsinfrastrukturen är viktig. Du kan inte resonera dig ut ur hallucinationer, du behöver konsensusmekanismer.