El principio de cobertura: Cómo el preentrenamiento permite el postentrenamiento Nuevo preprint donde analizamos los mecanismos a través de los cuales la predicción del siguiente token produce modelos que tienen éxito en tareas posteriores. La respuesta involucra una métrica que llamamos "perfil de cobertura", no entropía cruzada.