Свежая статья: Иллюзия убывающей отдачи: Измерение долгосрочного выполнения в LLM. Являются ли маленькие модели будущим агентного ИИ? Не стоит ли масштабирование вычислений LLM своих затрат из-за убывающей отдачи? Осуждены ли авторегрессионные LLM, а мышление — это иллюзия? Медвежьи сценарии для масштабирования LLM связаны с одной способностью: Долгосрочное выполнение. Однако именно поэтому вам следует быть оптимистом в отношении увеличения размера модели и вычислений во время тестирования! > Во-первых, помните график METR? Его можно объяснить моделью накопления ошибок @ylecun > длина горизонта модели растет суперэкспоненциально (@DaveShapi) в точности одного шага. > Вывод 1: Не дайте себя обмануть замедлением прогресса по типичным краткосрочным бенчмаркам > этого достаточно для экспоненциального роста длины горизонта. Но мы выходим за пределы модели @ylecun, эмпирически тестируя LLM... > Просто выполнение также сложно для LLM, даже когда вы предоставляете им необходимый план и знания. > Мы не должны неправильно интерпретировать неудачи выполнения как неспособность "рассуждать". > Даже когда маленькая модель имеет 100% точность в одном шаге, более крупные модели могут выполнять гораздо больше шагов выше порога успешности. > Заметили, как ваш агент работает хуже, когда задача становится длиннее? Это не только ограничения длинного контекста.. > Мы наблюдаем: Эффект самокоррекции! > Когда модели видят ошибки, которые они сделали ранее в своей истории, они становятся более склонными к ошибкам в будущих ходах. > Увеличение размера модели усугубляет эту проблему - редкий случай обратного масштабирования! Так что насчет мышления...? > Мышление не является иллюзией. Это двигатель выполнения! > Где даже DeepSeek v3, Kimi K2 не могут выполнить даже 5 шагов латентно, когда их просят выполнить без CoT... > С CoT они могут сделать в 10 раз больше. Так что насчет фронтира? ...