Zasada pokrycia: Jak wstępne szkolenie umożliwia szkolenie po Nowy preprint, w którym przyglądamy się mechanizmom, dzięki którym przewidywanie następnego tokena produkuje modele, które odnoszą sukcesy w zadaniach downstream. Odpowiedź dotyczy metryki, którą nazywamy "profil pokrycia", a nie entropią krzyżową.