Принцип покриття: як попередня підготовка забезпечує посттренування
Новий препринт, де ми розглядаємо механізми, за допомогою яких прогнозування наступних токенів створює моделі, які успішно справляються з подальшими завданнями.
Відповідь включає показник, який ми називаємо «профілем покриття», а не крос-ентропію.