Ми говоримо про це вже деякий час, і нарешті всі наздоганяють: більше аргументів ≠ більше надійності. Нове емпіричне дослідження підтверджує, що шкалювання під час тестування не вдається виконувати фактичні завдання — точність виходить на плато, а галюцинації часто зростають. Коли помилки зменшуються, це відбувається від утримання, а не від покращення запам'ятовування. Розширені ланцюжки посилюють упередженість підтвердження, фабрикуючи докази на підтримку неправильних відповідей. Ось чому інфраструктура верифікації має значення. Ви не можете обґрунтувати свій вихід з галюцинацій, вам потрібні механізми консенсусу.