Acabo de leer este nuevo artículo que me dejó completamente aturdido 🤯 Los investigadores descubrieron cómo transferir adaptadores LoRA entre modelos de IA completamente diferentes sin ningún dato de entrenamiento, y funciona mejor que los métodos que requieren conjuntos de datos masivos. Se llama TITOK, y aquí está la parte sorprendente: En lugar de copiar todo del modelo fuente, solo transfieren los tokens que realmente importan. Hacen esto comparando el modelo con y sin LoRA para encontrar dónde el adaptador agrega un valor real. Piénsalo así: si tu modelo ajustado está seguro sobre un token pero el modelo base no, ese token contiene el conocimiento que deseas transferir. Los resultados son increíbles: +8% mejor que los modelos estándar +6% mejor que la destilación de conocimiento tradicional +4.4% mejor que TransLoRA Y funciona en escenarios sorprendentes: → Mistral a Llama (familias diferentes) → Modelos de 3B a 8B (tamaños diferentes) → Llama 2 a Llama 3 (versiones diferentes) ¿La ventaja killer? No se necesitan modelos adicionales. TransLoRA requiere entrenar un discriminador separado solo para filtrar datos sintéticos. TITOK utiliza el propio modelo fuente para identificar tokens importantes. Aún más loco: manejan diferentes tokenizadores automáticamente. Cuando los modelos dividen el texto de manera diferente, su algoritmo alinea los tokens y propaga las puntuaciones de importancia a través de la brecha. Esto no es solo académico. Cada vez que se lanza un nuevo modelo, tus adaptadores finamente ajustados se vuelven obsoletos. TITOK significa que puedes migrar ese conocimiento arduamente ganado a cualquier nuevo backbone en horas, no en semanas. Pasamos de "cada modelo necesita su propio adaptador" a "el conocimiento fluye libremente entre modelos." ...