Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tocmai am citit această nouă lucrare care mi-a rupt complet creierul 🤯
Cercetătorii și-au dat seama cum să transfere adaptoare LoRA între modele AI complet diferite, fără date de antrenament, și funcționează mai bine decât metodele care necesită seturi de date masive.
Se numește TITOK și iată partea sălbatică:
În loc să copieze totul din modelul sursă, ei transferă doar tokenurile care contează cu adevărat. Ei fac acest lucru comparând modelul cu și fără LoRA pentru a găsi unde adaptorul adaugă valoare reală.
Gândiți-vă astfel: dacă modelul reglat este încrezător în un token, dar modelul de bază nu, acel token conține cunoștințele pe care doriți să le transferați.
Rezultatele sunt nebunești:
+8% mai bun decât modelele vanilie
+6% mai bun decât distilarea tradițională a cunoștințelor
+4,4% mai bun decât TransLoRA
Și funcționează în scenarii sălbatice:
→ Mistral la Llama (familii diferite)
→ modele 3B până la 8B (diferite dimensiuni)
→ Llama 2 la Llama 3 (versiuni diferite)
Avantajul ucigaș? Nu sunt necesare modele suplimentare. TransLoRA necesită antrenarea unui discriminator separat doar pentru a filtra datele sintetice. TITOK folosește modelul sursă în sine pentru a identifica token-uri importante.
Și mai nebunesc: gestionează automat diferiți tokenizatori. Când modelele împart textul în mod diferit, algoritmul lor aliniază tokenurile și propagă scorurile de importanță de-a lungul decalajului.
Acest lucru nu este doar academic. De fiecare dată când apare un model nou, adaptoarele reglate devin învechite. TITOK înseamnă că poți migra acele cunoștințe câștigate cu greu în orice nouă coloană vertebrală în câteva ore, nu săptămâni.
Tocmai am trecut de la "fiecare model are nevoie de propriul adaptor" la "cunoașterea curge liber între modele".
...

Limită superioară
Clasament
Favorite