Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Я щойно прочитав цю нову статтю, яка повністю зламала мій мозок 🤯
Дослідники з'ясували, як передавати адаптери LoRA між абсолютно різними моделями ШІ без будь-яких навчальних даних, і це працює краще, ніж методи, які вимагають величезних наборів даних.
Він називається TITOK, і ось дика частина:
Замість того, щоб копіювати все з вихідної моделі, вони передають лише ті токени, які дійсно мають значення. Вони роблять це, порівнюючи модель з LoRA та без нього, щоб з'ясувати, де адаптер додає реальну вартість.
Подумайте про це так: якщо ваша налаштована модель впевнена в токені, а базова - ні, цей токен містить знання, які ви хочете передати.
Результати шалені:
+8% краще, ніж у ванільних моделях
+6% краще, ніж традиційна дистиляція знань
+4,4% краще, ніж у TransLoRA
І це працює в диких сценаріях:
→ Містраль до лами (різні сімейства)
→ моделей від 3B до 8B (різні розміри)
→ Llama 2 до Llama 3 (різні версії)
Вбивча перевага? Додаткові моделі не потрібні. TransLoRA вимагає навчання окремого дискримінатора лише для фільтрації синтетичних даних. TITOK використовує саму модель джерела для ідентифікації важливих токенів.
Ще божевільніше: вони автоматично обробляють різні токенізатори. Коли моделі розбивають текст по-різному, їхній алгоритм вирівнює токени та розподіляє оцінки важливості по всьому проміжку.
Це не тільки академічно. Щоразу, коли виходить нова модель, ваші точно налаштовані адаптери застарівають. TITOK означає, що ви можете перенести ці важко здобуті знання на будь-яку нову основу за години, а не тижні.
Ми просто перейшли від «кожній моделі потрібен свій адаптер» до «знання вільно перетікають між моделями».
...

Найкращі
Рейтинг
Вибране