O princípio da cobertura: Como o pré-treinamento permite o pós-treinamento Novo pré-print onde analisamos os mecanismos através dos quais a previsão do próximo token produz modelos que têm sucesso em tarefas subsequentes. A resposta envolve uma métrica que chamamos de "perfil de cobertura", não entropia cruzada.