Ho appena letto questo nuovo articolo che mi ha completamente scombussolato 🤯 I ricercatori hanno scoperto come trasferire gli adattatori LoRA tra modelli AI completamente diversi senza alcun dato di addestramento, e funziona meglio dei metodi che richiedono enormi dataset. Si chiama TITOK, ecco la parte sorprendente: Invece di copiare tutto dal modello sorgente, trasferiscono solo i token che contano davvero. Lo fanno confrontando il modello con e senza LoRA per trovare dove l'adattatore aggiunge valore reale. Pensala in questo modo: se il tuo modello sintonizzato è sicuro riguardo a un token ma il modello base non lo è, quel token contiene la conoscenza che vuoi trasferire. I risultati sono pazzeschi: +8% meglio dei modelli vanilla +6% meglio della tradizionale distillazione della conoscenza +4.4% meglio di TransLoRA E funziona in scenari estremi: → Mistral a Llama (famiglie diverse) → modelli da 3B a 8B (dimensioni diverse) → Llama 2 a Llama 3 (versioni diverse) Il vantaggio killer? Nessun modello extra necessario. TransLoRA richiede di addestrare un discriminatore separato solo per filtrare i dati sintetici. TITOK utilizza il modello sorgente stesso per identificare i token importanti. Ancora più incredibile: gestiscono automaticamente diversi tokenizer. Quando i modelli dividono il testo in modo diverso, il loro algoritmo allinea i token e propaga i punteggi di importanza attraverso il divario. Questo non è solo accademico. Ogni volta che esce un nuovo modello, i tuoi adattatori fine-tuned diventano obsoleti. TITOK significa che puoi migrare quella conoscenza conquistata con fatica a qualsiasi nuovo backbone in ore, non in settimane. Siamo passati da "ogni modello ha bisogno del proprio adattatore" a "la conoscenza fluisce liberamente tra i modelli." ...