Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Я только что прочитал эту новую статью, которая полностью сломала мой мозг 🤯
Исследователи выяснили, как передавать адаптеры LoRA между совершенно разными моделями ИИ без каких-либо обучающих данных, и это работает лучше, чем методы, требующие огромных наборов данных.
Это называется TITOK, и вот дикая часть:
Вместо того чтобы копировать все из исходной модели, они передают только токены, которые действительно имеют значение. Они делают это, сравнивая модель с LoRA и без нее, чтобы выяснить, где адаптер добавляет реальную ценность.
Представьте это так: если ваша настроенная модель уверена в токене, но базовая модель нет, этот токен содержит знания, которые вы хотите передать.
Результаты безумные:
+8% лучше, чем ванильные модели
+6% лучше, чем традиционная дистилляция знаний
+4.4% лучше, чем TransLoRA
И это работает в диких сценариях:
→ Mistral к Llama (разные семьи)
→ 3B к 8B моделям (разные размеры)
→ Llama 2 к Llama 3 (разные версии)
Убийственное преимущество? Не нужны дополнительные модели. TransLoRA требует обучения отдельного дискриминатора только для фильтрации синтетических данных. TITOK использует саму исходную модель для идентификации важных токенов.
Еще более безумно: они автоматически обрабатывают разные токенизаторы. Когда модели разбивают текст по-разному, их алгоритм выравнивает токены и распространяет оценки важности через разрыв.
Это не просто академическое. Каждый раз, когда выходит новая модель, ваши тонко настроенные адаптеры становятся устаревшими. TITOK означает, что вы можете перенести эти трудно добытые знания на любую новую основу за часы, а не недели.
Мы только что перешли от "каждой модели нужен свой адаптер" к "знания свободно текут между моделями."
...

Топ
Рейтинг
Избранное