Il principio di copertura: come il pre-addestramento abilita il post-addestramento Nuovo preprint in cui esaminiamo i meccanismi attraverso i quali la previsione del prossimo token produce modelli che hanno successo nei compiti successivi. La risposta coinvolge una metrica che chiamiamo "profilo di copertura", non cross-entropy.