El principio de cobertura: cómo el entrenamiento previo permite el entrenamiento posterior
Nueva preimpresión en la que observamos los mecanismos a través de los cuales la predicción del siguiente token produce modelos que tienen éxito en las tareas posteriores.
La respuesta implica una métrica que llamamos "perfil de cobertura", no entropía cruzada.