O princípio da cobertura: como o pré-treino permite o pós-treino
Nova pré-impressão em que analisamos os mecanismos pelos quais a previsão do próximo token produz modelos que são bem-sucedidos em tarefas downstream.
A resposta envolve uma métrica que chamamos de "perfil de cobertura", não entropia cruzada.