Свіжа стаття преси: Ілюзія спадної віддачі: вимірювання виконання довгого горизонту в ЛМ. Чи є маленькі моделі майбутнім агентного штучного інтелекту? Чи не варті масштабування обчислень LLM витрат через зменшення віддачі? Чи приречені авторегресійні ЛМ, а мислення – ілюзія? Усі ведмежі кейси для масштабування LLM пов'язані з єдиною можливістю: Long Horizon Execution. Однак саме тому ви повинні бути оптимістичними щодо масштабування розміру моделі та обчислень під час тестування! > По-перше, пам'ятаєте графік METR? Це може бути пояснено моделлю @ylecun складання помилок > довжина горизонту моделі зростає в супергеометричній прогресії (@DaveShapi) з точністю до одного кроку. > Підсумок 1: Не дайте себе обдурити, сповільнюючи прогрес у типових контрольних показниках для коротких завдань > цього достатньо для експоненціального зростання довжини горизонту. Але ми виходимо за рамки моделі @ylecun, тестуючи LLM емпіричним шляхом... > Справедливе виконання також є важким для LLM, навіть якщо ви надаєте їм необхідний план і знання. > Ми не повинні неправильно тлумачити невдачі у виконанні як нездатність «міркувати». > Навіть якщо маленька модель має 100% однокрокову точність, більші моделі можуть виконати набагато більше поворотів, що перевищують поріг успішності. > Помітили, що ваш агент працює гірше зі збільшенням часу виконання завдання? Це не просто обмеження тривалого контексту. > Ми спостерігаємо: Ефект самокондиціонування! > Коли моделі бачать помилки, які вони зробили раніше у своїй історії, вони з більшою ймовірністю зроблять помилки в майбутніх ходах. > Збільшення розміру моделі погіршує цю проблему - рідкісний випадок зворотного масштабування! А як же подумати...? > Мислення – це не ілюзія. Це двигун для виконання! > Де навіть DeepSeek v3, Kimi K2 не можуть латентно виконати навіть 5 обертів, коли їх просять виконати без CoT... > З CoT вони можуть робити в 10 разів більше. А як же фронтир? ...