Zasada pokrycia: Jak wstępne szkolenie umożliwia szkolenie po
Nowy preprint, w którym przyglądamy się mechanizmom, dzięki którym przewidywanie następnego tokena produkuje modele, które odnoszą sukcesy w zadaniach downstream.
Odpowiedź dotyczy metryki, którą nazywamy "profil pokrycia", a nie entropią krzyżową.