Принцип покрытия: как предварительное обучение позволяет последующему обучению
Новый препринт, в котором мы рассматриваем механизмы, с помощью которых предсказание следующего токена создает модели, которые успешно справляются с последующими задачами.
Ответ включает в себя метрику, которую мы называем "профиль покрытия", а не кросс-энтропию.