Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Свіжа стаття преси: Ілюзія спадної віддачі: вимірювання виконання довгого горизонту в ЛМ.
Чи є маленькі моделі майбутнім агентного штучного інтелекту? Чи не варті масштабування обчислень LLM витрат через зменшення віддачі? Чи приречені авторегресійні ЛМ, а мислення – ілюзія?
Усі ведмежі кейси для масштабування LLM пов'язані з єдиною можливістю: Long Horizon Execution. Однак саме тому ви повинні бути оптимістичними щодо масштабування розміру моделі та обчислень під час тестування!
> По-перше, пам'ятаєте графік METR? Це може бути пояснено моделлю @ylecun складання помилок
> довжина горизонту моделі зростає в супергеометричній прогресії (@DaveShapi) з точністю до одного кроку.
> Підсумок 1: Не дайте себе обдурити, сповільнюючи прогрес у типових контрольних показниках для коротких завдань
> цього достатньо для експоненціального зростання довжини горизонту.
Але ми виходимо за рамки моделі @ylecun, тестуючи LLM емпіричним шляхом...
> Справедливе виконання також є важким для LLM, навіть якщо ви надаєте їм необхідний план і знання.
> Ми не повинні неправильно тлумачити невдачі у виконанні як нездатність «міркувати».
> Навіть якщо маленька модель має 100% однокрокову точність, більші моделі можуть виконати набагато більше поворотів, що перевищують поріг успішності.
> Помітили, що ваш агент працює гірше зі збільшенням часу виконання завдання? Це не просто обмеження тривалого контексту.
> Ми спостерігаємо: Ефект самокондиціонування!
> Коли моделі бачать помилки, які вони зробили раніше у своїй історії, вони з більшою ймовірністю зроблять помилки в майбутніх ходах.
> Збільшення розміру моделі погіршує цю проблему - рідкісний випадок зворотного масштабування!
А як же подумати...?
> Мислення – це не ілюзія. Це двигун для виконання!
> Де навіть DeepSeek v3, Kimi K2 не можуть латентно виконати навіть 5 обертів, коли їх просять виконати без CoT...
> З CoT вони можуть робити в 10 разів більше.
А як же фронтир?
...

Найкращі
Рейтинг
Вибране