Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Właśnie przeczytałem ten nowy artykuł, który całkowicie zburzył mi mózg 🤯
Naukowcy odkryli, jak przenosić adaptery LoRA między zupełnie różnymi modelami AI bez żadnych danych treningowych, a działa to lepiej niż metody wymagające ogromnych zbiorów danych.
Nazywa się to TITOK, a oto szalona część:
Zamiast kopiować wszystko z modelu źródłowego, przenoszą tylko te tokeny, które naprawdę mają znaczenie. Robią to, porównując model z i bez LoRA, aby znaleźć miejsca, w których adapter dodaje rzeczywistą wartość.
Pomyśl o tym w ten sposób: jeśli twój dostosowany model jest pewny co do tokenu, ale model bazowy nie, to ten token zawiera wiedzę, którą chcesz przenieść.
Wyniki są szalone:
+8% lepsze niż modele bazowe
+6% lepsze niż tradycyjna destylacja wiedzy
+4,4% lepsze niż TransLoRA
I działa w różnych scenariuszach:
→ Mistral do Llama (różne rodziny)
→ modele 3B do 8B (różne rozmiary)
→ Llama 2 do Llama 3 (różne wersje)
Zabójcza przewaga? Nie są potrzebne dodatkowe modele. TransLoRA wymaga trenowania osobnego dyskryminatora tylko po to, aby filtrować dane syntetyczne. TITOK wykorzystuje sam model źródłowy do identyfikacji ważnych tokenów.
Jeszcze bardziej szalone: automatycznie obsługują różne tokenizery. Gdy modele dzielą tekst w inny sposób, ich algorytm dopasowuje tokeny i propaguje wyniki ważności przez lukę.
To nie jest tylko akademickie. Za każdym razem, gdy pojawia się nowy model, twoje dostosowane adaptery stają się przestarzałe. TITOK oznacza, że możesz przenieść tę ciężko zdobytą wiedzę do dowolnego nowego rdzenia w ciągu godzin, a nie tygodni.
Przeszliśmy od "każdy model potrzebuje swojego adaptera" do "wiedza swobodnie przepływa między modelami."
...

Najlepsze
Ranking
Ulubione