Princip pokrytí: Jak předtrénink umožňuje post-trénink
Nový preprint, kde se podíváme na mechanismy, jejichž prostřednictvím predikce next-token vytváří modely, které uspějí v navazujících úlohách.
Odpověď zahrnuje metriku, kterou nazýváme "profil pokrytí", nikoli křížovou entropii.