Prinsip cakupan: Bagaimana pra-pelatihan memungkinkan pasca-pelatihan Preprint baru di mana kami melihat mekanisme di mana prediksi token berikutnya menghasilkan model yang berhasil pada tugas hilir. Jawabannya melibatkan metrik yang kita sebut "profil cakupan", bukan entropi silang.