Dekningsprinsippet: Hvordan fortrening muliggjør ettertrening
Nytt preprint der vi ser på mekanismene som prediksjon av neste token produserer modeller som lykkes med nedstrømsoppgaver.
Svaret involverer en beregning vi kaller "dekningsprofilen", ikke kryssentropi.