トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
この新しい論文を読んだばかりで、脳が🤯完全に壊れてしまいました
研究者らは、トレーニング データなしでまったく異なる AI モデル間で LoRA アダプターを転送する方法を見つけ出し、大規模なデータセットを必要とする方法よりもうまく機能します。
それは TITOK と呼ばれ、ここにワイルドな部分があります。
ソース モデルからすべてをコピーする代わりに、実際に重要なトークンのみを転送します。これは、LoRA の有無のモデルを比較して、アダプターが実際の価値を付加する場所を見つけることによって行われます。
調整されたモデルがトークンに自信を持っているが、ベースモデルに自信がない場合、そのトークンには転送したい知識が含まれています。
結果は非常識です。
バニラモデルより+8%優れている
伝統的知識の蒸留よりも+6%優れています
TransLoRAより+4.4%優れている
そして、それはワイルドなシナリオで機能します。
→ ミストラルからラマへ(異なる家族)
→ 3Bから8Bモデル(異なるサイズ)
→ ラマ 2 からラマ 3 (異なるバージョン)
キラーアドバンテージ?追加のモデルは必要ありません。TransLoRAでは、合成データをフィルタリングするためだけに、別のディスクリミネーターをトレーニングする必要があります。TITOKは、ソースモデル自体を使用して重要なトークンを識別します。
さらにクレイジーなことに、さまざまなトークナイザーを自動的に処理します。モデルがテキストを異なる方法で分割すると、アルゴリズムはトークンを整列させ、ギャップ全体に重要度スコアを伝播します。
これは単なる学術的なことではありません。新しいモデルがリリースされるたびに、微調整されたアダプターは時代遅れになります。TITOKは、苦労して得た知識を数週間ではなく数時間で新しいバックボーンに移行できることを意味します。
「各モデルには独自のアダプターが必要である」から「知識はモデル間で自由に流れる」に移行しました。
...

トップ
ランキング
お気に入り