この新しい論文を読んだばかりで、脳が🤯完全に壊れてしまいました 研究者らは、トレーニング データなしでまったく異なる AI モデル間で LoRA アダプターを転送する方法を見つけ出し、大規模なデータセットを必要とする方法よりもうまく機能します。 それは TITOK と呼ばれ、ここにワイルドな部分があります。 ソース モデルからすべてをコピーする代わりに、実際に重要なトークンのみを転送します。これは、LoRA の有無のモデルを比較して、アダプターが実際の価値を付加する場所を見つけることによって行われます。 調整されたモデルがトークンに自信を持っているが、ベースモデルに自信がない場合、そのトークンには転送したい知識が含まれています。 結果は非常識です。 バニラモデルより+8%優れている 伝統的知識の蒸留よりも+6%優れています TransLoRAより+4.4%優れている そして、それはワイルドなシナリオで機能します。 → ミストラルからラマへ(異なる家族) → 3Bから8Bモデル(異なるサイズ) → ラマ 2 からラマ 3 (異なるバージョン) キラーアドバンテージ?追加のモデルは必要ありません。TransLoRAでは、合成データをフィルタリングするためだけに、別のディスクリミネーターをトレーニングする必要があります。TITOKは、ソースモデル自体を使用して重要なトークンを識別します。 さらにクレイジーなことに、さまざまなトークナイザーを自動的に処理します。モデルがテキストを異なる方法で分割すると、アルゴリズムはトークンを整列させ、ギャップ全体に重要度スコアを伝播します。 これは単なる学術的なことではありません。新しいモデルがリリースされるたびに、微調整されたアダプターは時代遅れになります。TITOKは、苦労して得た知識を数週間ではなく数時間で新しいバックボーンに移行できることを意味します。 「各モデルには独自のアダプターが必要である」から「知識はモデル間で自由に流れる」に移行しました。 ...