Acabei de ler este novo artigo que me deixou completamente confuso 🤯 Os pesquisadores descobriram como transferir adaptadores LoRA entre modelos de IA completamente diferentes sem qualquer dado de treino, e funciona melhor do que métodos que requerem conjuntos de dados massivos. Chama-se TITOK, e aqui está a parte incrível: Em vez de copiar tudo do modelo de origem, eles apenas transferem os tokens que realmente importam. Eles fazem isso comparando o modelo com e sem LoRA para descobrir onde o adaptador acrescenta valor real. Pense assim: se o seu modelo ajustado está confiante sobre um token, mas o modelo base não está, esse token contém o conhecimento que você quer transferir. Os resultados são insanos: +8% melhor do que modelos padrão +6% melhor do que a destilação de conhecimento tradicional +4.4% melhor do que TransLoRA E funciona em cenários variados: → Mistral para Llama (famílias diferentes) → Modelos de 3B para 8B (tamanhos diferentes) → Llama 2 para Llama 3 (versões diferentes) A grande vantagem? Nenhum modelo extra necessário. TransLoRA requer o treino de um discriminador separado apenas para filtrar dados sintéticos. TITOK usa o próprio modelo de origem para identificar tokens importantes. Ainda mais louco: eles lidam automaticamente com diferentes tokenizadores. Quando os modelos dividem o texto de maneira diferente, seu algoritmo alinha os tokens e propaga as pontuações de importância através da lacuna. Isto não é apenas acadêmico. Cada vez que um novo modelo é lançado, seus adaptadores ajustados tornam-se obsoletos. TITOK significa que você pode migrar esse conhecimento arduamente conquistado para qualquer nova base em horas, não em semanas. Passamos de "cada modelo precisa do seu próprio adaptador" para "o conhecimento flui livremente entre os modelos." ...