Principiul acoperirii: Cum permite pre-training-ul post-training O nouă preprint în care ne uităm la mecanismele prin care predicția next-token produce modele care reușesc la sarcinile din aval. Răspunsul implică o măsură pe care o numim "profil de acoperire", nu entropie încrucișată.