Hemos estado diciendo esto durante un tiempo y finalmente todos están poniéndose al día: más razonamiento ≠ más fiabilidad. Un nuevo estudio empírico confirma que la escalabilidad en el tiempo de prueba falla para tareas fácticas: la precisión se estabiliza mientras que las alucinaciones a menudo aumentan. Cuando los errores disminuyen, es por abstención, no por una mejor recuperación. Las cadenas extendidas amplifican el sesgo de confirmación, fabricando evidencia para apoyar respuestas incorrectas. Por eso es importante la infraestructura de verificación. No puedes razonar tu camino fuera de las alucinaciones, necesitas mecanismos de consenso.