Acabo de leer este nuevo artículo que me rompió el cerebro 🤯 por completo Los investigadores descubrieron cómo transferir adaptadores LoRA entre modelos de IA completamente diferentes sin ningún dato de entrenamiento, y funciona mejor que los métodos que requieren conjuntos de datos masivos. Se llama TITOK, y aquí está la parte salvaje: En lugar de copiar todo del modelo de origen, solo transfieren los tokens que realmente importan. Lo hacen comparando el modelo con y sin LoRA para encontrar dónde el adaptador agrega valor real. Piénselo así: si su modelo ajustado confía en un token pero el modelo base no, ese token contiene el conocimiento que desea transferir. Los resultados son una locura: +8% mejor que los modelos vainilla +6% mejor que la destilación de conocimientos tradicionales +4,4% mejor que TransLoRA Y funciona en escenarios salvajes: → Mistral a Llama (diferentes familias) → Modelos 3B a 8B (diferentes tamaños) → Llama 2 a Llama 3 (diferentes versiones) ¿La ventaja asesina? No se necesitan modelos adicionales. TransLoRA requiere entrenar un discriminador independiente solo para filtrar datos sintéticos. TITOK utiliza el propio modelo de origen para identificar tokens importantes. Aún más loco: manejan diferentes tokenizadores automáticamente. Cuando los modelos dividen el texto de manera diferente, su algoritmo alinea los tokens y propaga las puntuaciones de importancia a través de la brecha. Esto no es solo académico. Cada vez que se lanza un nuevo modelo, sus adaptadores ajustados se vuelven obsoletos. TITOK significa que puede migrar ese conocimiento ganado con tanto esfuerzo a cualquier nueva red troncal en horas, no en semanas. Simplemente pasamos de "cada modelo necesita su propio adaptador" a "el conocimiento fluye libremente entre modelos". ...