Hemos estado diciendo esto por un tiempo y finalmente todos se están poniendo al día: más razonamiento ≠ más confiabilidad. Un nuevo estudio empírico confirma que el escalado del tiempo de prueba falla para las tareas fácticas: la precisión se estanca mientras que las alucinaciones a menudo aumentan. Cuando los errores disminuyen, es por abstención, no por recuerdo mejorado. Las cadenas extendidas amplifican el sesgo de confirmación, fabricando evidencia para respaldar respuestas incorrectas. Por eso es importante la infraestructura de verificación. No puedes razonar para salir de las alucinaciones, necesitas mecanismos de consenso.