热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我刚读了这篇完全颠覆我思维的新论文 🤯
研究人员找到了在完全不同的AI模型之间转移LoRA适配器的方法,而无需任何训练数据,而且效果比需要大量数据集的方法更好。
它被称为TITOK,令人惊讶的是:
他们并不是从源模型中复制所有内容,而是只转移那些真正重要的token。他们通过比较有无LoRA的模型来找出适配器带来真正价值的地方。
可以这样理解:如果你的调优模型对某个token很有信心,但基础模型却没有,那么这个token就包含了你想要转移的知识。
结果令人震惊:
比原始模型好8%
比传统知识蒸馏好6%
比TransLoRA好4.4%
而且它在各种极端场景下都有效:
→ Mistral到Llama(不同家族)
→ 3B到8B模型(不同大小)
→ Llama 2到Llama 3(不同版本)
最大的优势?不需要额外的模型。TransLoRA需要训练一个单独的判别器来过滤合成数据。而TITOK使用源模型本身来识别重要的token。
更疯狂的是:他们自动处理不同的tokenizer。当模型以不同方式拆分文本时,他们的算法会对齐token并在间隙中传播重要性分数。
这不仅仅是学术研究。每当一个新模型发布时,你的微调适配器就会变得过时。TITOK意味着你可以在几小时内将那种艰苦获得的知识迁移到任何新的骨干网络,而不是几周。
我们刚刚从“每个模型需要自己的适配器”变成了“知识在模型之间自由流动”。
...

热门
排行
收藏