Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ik heb net dit nieuwe artikel gelezen dat mijn brein volledig heeft gebroken 🤯
Onderzoekers hebben ontdekt hoe ze LoRA-adapters kunnen overdragen tussen totaal verschillende AI-modellen zonder enige trainingsdata, en het werkt beter dan methoden die enorme datasets vereisen.
Het heet TITOK, en hier is het wilde deel:
In plaats van alles van het bronmodel te kopiëren, transfereren ze alleen de tokens die er echt toe doen. Ze doen dit door het model met en zonder LoRA te vergelijken om te vinden waar de adapter echte waarde toevoegt.
Denk er zo over: als jouw afgestelde model zeker is van een token maar het basismodel niet, bevat die token de kennis die je wilt overdragen.
De resultaten zijn insane:
+8% beter dan vanilla modellen
+6% beter dan traditionele kennisdistillatie
+4,4% beter dan TransLoRA
En het werkt in wilde scenario's:
→ Mistral naar Llama (verschillende families)
→ 3B naar 8B modellen (verschillende groottes)
→ Llama 2 naar Llama 3 (verschillende versies)
Het grote voordeel? Geen extra modellen nodig. TransLoRA vereist het trainen van een aparte discriminator alleen om synthetische data te filteren. TITOK gebruikt het bronmodel zelf om belangrijke tokens te identificeren.
Nog gekker: ze verwerken verschillende tokenizers automatisch. Wanneer modellen tekst anders splitsen, stemt hun algoritme de tokens af en verspreidt het belangrijkheidsscores over de kloof.
Dit is niet alleen academisch. Elke keer dat er een nieuw model uitkomt, worden jouw fijn-afgestelde adapters verouderd. TITOK betekent dat je die moeilijk verworven kennis in enkele uren, niet weken, naar elke nieuwe backbone kunt migreren.
We zijn net van "elk model heeft zijn eigen adapter nodig" naar "kennis stroomt vrij tussen modellen" gegaan.
...

Boven
Positie
Favorieten