Le principe de couverture : Comment le pré-entraînement permet le post-entraînement Nouvelle prépublication où nous examinons les mécanismes par lesquels la prédiction du prochain token produit des modèles qui réussissent dans des tâches en aval. La réponse implique une métrique que nous appelons le "profil de couverture", et non l'entropie croisée.