Täckningsprincipen: Hur förträning möjliggör efterträning Nytt preprint där vi tittar på de mekanismer genom vilka förutsägelse av nästa token skapar modeller som lyckas med uppgifter nedströms. Svaret handlar om ett mått som vi kallar "täckningsprofilen", inte korsentropi.