Принцип покриття: як попередня підготовка забезпечує посттренування Новий препринт, де ми розглядаємо механізми, за допомогою яких прогнозування наступних токенів створює моделі, які успішно справляються з подальшими завданнями. Відповідь включає показник, який ми називаємо «профілем покриття», а не крос-ентропію.