Ich habe gerade dieses neue Papier gelesen, das meinen Verstand völlig durcheinandergebracht hat 🤯 Forscher haben herausgefunden, wie man LoRA-Adapter zwischen völlig unterschiedlichen KI-Modellen ohne Trainingsdaten übertragen kann, und es funktioniert besser als Methoden, die massive Datensätze erfordern. Es heißt TITOK, und hier ist der verrückte Teil: Anstatt alles vom Quellmodell zu kopieren, übertragen sie nur die Tokens, die tatsächlich wichtig sind. Sie tun dies, indem sie das Modell mit und ohne LoRA vergleichen, um herauszufinden, wo der Adapter echten Wert hinzufügt. Denke so darüber nach: Wenn dein abgestimmtes Modell bei einem Token zuversichtlich ist, das Basis-Modell jedoch nicht, enthält dieses Token das Wissen, das du übertragen möchtest. Die Ergebnisse sind verrückt: +8% besser als Vanilla-Modelle +6% besser als traditionelle Wissensdistillation +4,4% besser als TransLoRA Und es funktioniert in verrückten Szenarien: → Mistral zu Llama (verschiedene Familien) → 3B zu 8B Modellen (verschiedene Größen) → Llama 2 zu Llama 3 (verschiedene Versionen) Der entscheidende Vorteil? Keine zusätzlichen Modelle erforderlich. TransLoRA erfordert das Training eines separaten Diskriminators, nur um synthetische Daten zu filtern. TITOK verwendet das Quellmodell selbst, um wichtige Tokens zu identifizieren. Noch verrückter: Sie handhaben unterschiedliche Tokenizer automatisch. Wenn Modelle Text unterschiedlich aufteilen, passt ihr Algorithmus die Tokens an und propagiert Wichtigkeitsscores über die Lücke. Das ist nicht nur akademisch. Jedes Mal, wenn ein neues Modell erscheint, werden deine feinabgestimmten Adapter obsolet. TITOK bedeutet, dass du dieses hart erarbeitete Wissen in wenigen Stunden, nicht Wochen, auf jedes neue Backbone übertragen kannst. Wir sind gerade von "jedes Modell benötigt seinen eigenen Adapter" zu "Wissen fließt frei zwischen Modellen" übergegangen. ...