Das Abdeckungsprinzip: Wie das Pre-Training das Post-Training ermöglicht
Neuer Preprint, in dem wir die Mechanismen untersuchen, durch die die Vorhersage des nächsten Tokens Modelle erzeugt, die bei nachgelagerten Aufgaben erfolgreich sind.
Die Antwort beinhaltet eine Metrik, die wir "Abdeckungsprofil" nennen, nicht Kreuzentropie.