分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

この新しい論文を読んだばかりで、脳が🤯完全に壊れてしまいました研究者らは、トレーニングデータなしでまったく異なる AI モデル間で LoRA アダプターを転送する方法を見つけ出し、大規模なデータセットを必要とする方法よりもうまく機能します。それは TITOK と呼ばれ、ここにワイルドな部分があります。ソースモデルからすべてをコピーする代わりに、実際に重要なトークンのみを転送します。これは、LoRA の有無のモデルを比較して、アダプターが実際の価値を付加する場所を見つけることによって行われます。調整されたモデルがトークンに自信を持っているが、ベースモデルに自信がない場合、そのトークンには転送したい知識が含まれています。結果は非常識です。バニラモデルより+8%優れている伝統的知識の蒸留よりも+6%優れています TransLoRAより+4.4%優れているそして、それはワイルドなシナリオで機能します。 → ミストラルからラマへ(異なる家族) → 3Bから8Bモデル(異なるサイズ) → ラマ 2 からラマ 3 (異なるバージョン) キラーアドバンテージ?追加のモデルは必要ありません。TransLoRAでは、合成データをフィルタリングするためだけに、別のディスクリミネーターをトレーニングする必要があります。TITOKは、ソースモデル自体を使用して重要なトークンを識別します。さらにクレイジーなことに、さまざまなトークナイザーを自動的に処理します。モデルがテキストを異なる方法で分割すると、アルゴリズムはトークンを整列させ、ギャップ全体に重要度スコアを伝播します。これは単なる学術的なことではありません。新しいモデルがリリースされるたびに、微調整されたアダプターは時代遅れになります。TITOKは、苦労して得た知識を数週間ではなく数時間で新しいバックボーンに移行できることを意味します。「各モデルには独自のアダプターが必要である」から「知識はモデル間で自由に流れる」に移行しました。 ...

トップ

ランキング

お気に入り