Het dekkingsprincipe: Hoe pre-training post-training mogelijk maakt Nieuwe preprint waarin we kijken naar de mechanismen waardoor next-token voorspelling modellen produceert die succesvol zijn bij downstream taken. Het antwoord omvat een maatstaf die we de "dekkingsprofiel" noemen, niet kruis-entropie.