Acabei de ler este novo artigo que quebrou completamente meu cérebro 🤯 Os pesquisadores descobriram como transferir adaptadores LoRA entre modelos de IA completamente diferentes sem nenhum dado de treinamento, e funciona melhor do que métodos que exigem conjuntos de dados massivos. Chama-se TITOK, e aqui está a parte selvagem: Em vez de copiar tudo do modelo de origem, eles transferem apenas os tokens que realmente importam. Eles fazem isso comparando o modelo com e sem LoRA para descobrir onde o adaptador agrega valor real. Pense assim: se o modelo ajustado estiver confiante sobre um token, mas o modelo base não, esse token conterá o conhecimento que você deseja transferir. Os resultados são insanos: +8% melhor que os modelos vanilla +6% melhor do que a destilação de conhecimento tradicional +4.4% melhor que o TransLoRA E funciona em cenários selvagens: → Mistral para Lhama (famílias diferentes) → modelos 3B a 8B (tamanhos diferentes) → Lhama 2 a Llama 3 (versões diferentes) A vantagem do assassino? Não são necessários modelos extras. O TransLoRA requer o treinamento de um discriminador separado apenas para filtrar dados sintéticos. O TITOK usa o próprio modelo de origem para identificar tokens importantes. Ainda mais louco: eles lidam com diferentes tokenizadores automaticamente. Quando os modelos dividem o texto de maneira diferente, seu algoritmo alinha os tokens e propaga as pontuações de importância através da lacuna. Isso não é apenas acadêmico. Toda vez que um novo modelo é lançado, seus adaptadores ajustados se tornam obsoletos. TITOK significa que você pode migrar esse conhecimento duramente conquistado para qualquer novo backbone em horas, não semanas. Passamos de "cada modelo precisa de seu próprio adaptador" para "o conhecimento flui livremente entre os modelos". ...