Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ho appena letto questo nuovo articolo che mi ha completamente scombussolato 🤯
I ricercatori hanno scoperto come trasferire gli adattatori LoRA tra modelli AI completamente diversi senza alcun dato di addestramento, e funziona meglio dei metodi che richiedono enormi dataset.
Si chiama TITOK, ecco la parte sorprendente:
Invece di copiare tutto dal modello sorgente, trasferiscono solo i token che contano davvero. Lo fanno confrontando il modello con e senza LoRA per trovare dove l'adattatore aggiunge valore reale.
Pensala in questo modo: se il tuo modello sintonizzato è sicuro riguardo a un token ma il modello base non lo è, quel token contiene la conoscenza che vuoi trasferire.
I risultati sono pazzeschi:
+8% meglio dei modelli vanilla
+6% meglio della tradizionale distillazione della conoscenza
+4.4% meglio di TransLoRA
E funziona in scenari estremi:
→ Mistral a Llama (famiglie diverse)
→ modelli da 3B a 8B (dimensioni diverse)
→ Llama 2 a Llama 3 (versioni diverse)
Il vantaggio killer? Nessun modello extra necessario. TransLoRA richiede di addestrare un discriminatore separato solo per filtrare i dati sintetici. TITOK utilizza il modello sorgente stesso per identificare i token importanti.
Ancora più incredibile: gestiscono automaticamente diversi tokenizer. Quando i modelli dividono il testo in modo diverso, il loro algoritmo allinea i token e propaga i punteggi di importanza attraverso il divario.
Questo non è solo accademico. Ogni volta che esce un nuovo modello, i tuoi adattatori fine-tuned diventano obsoleti. TITOK significa che puoi migrare quella conoscenza conquistata con fatica a qualsiasi nuovo backbone in ore, non in settimane.
Siamo passati da "ogni modello ha bisogno del proprio adattatore" a "la conoscenza fluisce liberamente tra i modelli."
...

Principali
Ranking
Preferiti