Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jag läste precis den här nya tidningen som fick min hjärna 🤯 att spricka helt
Forskare kom på hur man överför LoRA-adaptrar mellan helt olika AI-modeller utan träningsdata, och det fungerar bättre än metoder som kräver massiva datamängder.
Det kallas TITOK, och här är den vilda delen:
Istället för att kopiera allt från källmodellen överför de bara de tokens som faktiskt betyder något. De gör detta genom att jämföra modellen med och utan LoRA för att hitta var adaptern tillför verkligt värde.
Tänk på det så här: om din finjusterade modell är säker på en token men basmodellen inte är det, innehåller den token den kunskap som du vill överföra.
Resultaten är vansinniga:
+8 % bättre än vaniljmodeller
+6 % bättre än traditionell kunskapsdestillation
+4,4 % bättre än TransLoRA
Och det fungerar i vilda scenarier:
→ Mistral till Lama (olika familjer)
→ 3B till 8B-modeller (olika storlekar)
→ Lama 2 till Lama 3 (olika versioner)
Den bästa fördelen? Inga extra modeller behövs. TransLoRA kräver att man tränar en separat diskriminator bara för att filtrera syntetisk data. TITOK använder själva källmodellen för att identifiera viktiga tokens.
Ännu galnare: de hanterar olika tokenizers automatiskt. När modeller delar upp text på olika sätt justerar deras algoritm token och sprider prioritetspoäng över gapet.
Det här är inte bara akademiskt. Varje gång en ny modell släpps blir dina finjusterade adaptrar föråldrade. TITOK innebär att du kan migrera den svårvunna kunskapen till vilket nytt stamnät som helst på några timmar, inte veckor.
Vi gick bara från "varje modell behöver sin egen adapter" till "kunskap flödar fritt mellan modeller".
...

Topp
Rankning
Favoriter