Je viens de lire ce nouvel article qui m'a complètement retourné le cerveau 🤯 Les chercheurs ont découvert comment transférer des adaptateurs LoRA entre des modèles d'IA complètement différents sans aucune donnée d'entraînement, et cela fonctionne mieux que les méthodes nécessitant d'énormes ensembles de données. Cela s'appelle TITOK, et voici la partie folle : Au lieu de copier tout depuis le modèle source, ils ne transfèrent que les tokens qui comptent vraiment. Ils font cela en comparant le modèle avec et sans LoRA pour trouver où l'adaptateur ajoute une réelle valeur. Pensez-y comme ceci : si votre modèle ajusté est confiant à propos d'un token mais que le modèle de base ne l'est pas, ce token contient les connaissances que vous souhaitez transférer. Les résultats sont fous : +8% mieux que les modèles vanille +6% mieux que la distillation de connaissances traditionnelle +4,4% mieux que TransLoRA Et cela fonctionne dans des scénarios variés : → Mistral à Llama (familles différentes) → Modèles 3B à 8B (tailles différentes) → Llama 2 à Llama 3 (versions différentes) L'avantage décisif ? Pas de modèles supplémentaires nécessaires. TransLoRA nécessite l'entraînement d'un discriminateur séparé juste pour filtrer les données synthétiques. TITOK utilise le modèle source lui-même pour identifier les tokens importants. Encore plus fou : ils gèrent automatiquement différents tokenizers. Lorsque les modèles segmentent le texte différemment, leur algorithme aligne les tokens et propage les scores d'importance à travers l'écart. Ce n'est pas juste académique. Chaque fois qu'un nouveau modèle sort, vos adaptateurs finement ajustés deviennent obsolètes. TITOK signifie que vous pouvez migrer ce savoir durement acquis vers n'importe quel nouveau backbone en quelques heures, pas en semaines. Nous sommes passés de "chaque modèle a besoin de son propre adaptateur" à "les connaissances circulent librement entre les modèles." ...