Het dekkingsprincipe: Hoe pre-training post-training mogelijk maakt
Nieuwe preprint waarin we kijken naar de mechanismen waardoor next-token voorspelling modellen produceert die succesvol zijn bij downstream taken.
Het antwoord omvat een maatstaf die we de "dekkingsprofiel" noemen, niet kruis-entropie.