Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Свежая статья: Иллюзия убывающей отдачи: Измерение долгосрочного выполнения в LLM.
Являются ли маленькие модели будущим агентного ИИ? Не стоит ли масштабирование вычислений LLM своих затрат из-за убывающей отдачи? Осуждены ли авторегрессионные LLM, а мышление — это иллюзия?
Медвежьи сценарии для масштабирования LLM связаны с одной способностью: Долгосрочное выполнение. Однако именно поэтому вам следует быть оптимистом в отношении увеличения размера модели и вычислений во время тестирования!
> Во-первых, помните график METR? Его можно объяснить моделью накопления ошибок @ylecun
> длина горизонта модели растет суперэкспоненциально (@DaveShapi) в точности одного шага.
> Вывод 1: Не дайте себя обмануть замедлением прогресса по типичным краткосрочным бенчмаркам
> этого достаточно для экспоненциального роста длины горизонта.
Но мы выходим за пределы модели @ylecun, эмпирически тестируя LLM...
> Просто выполнение также сложно для LLM, даже когда вы предоставляете им необходимый план и знания.
> Мы не должны неправильно интерпретировать неудачи выполнения как неспособность "рассуждать".
> Даже когда маленькая модель имеет 100% точность в одном шаге, более крупные модели могут выполнять гораздо больше шагов выше порога успешности.
> Заметили, как ваш агент работает хуже, когда задача становится длиннее? Это не только ограничения длинного контекста..
> Мы наблюдаем: Эффект самокоррекции!
> Когда модели видят ошибки, которые они сделали ранее в своей истории, они становятся более склонными к ошибкам в будущих ходах.
> Увеличение размера модели усугубляет эту проблему - редкий случай обратного масштабирования!
Так что насчет мышления...?
> Мышление не является иллюзией. Это двигатель выполнения!
> Где даже DeepSeek v3, Kimi K2 не могут выполнить даже 5 шагов латентно, когда их просят выполнить без CoT...
> С CoT они могут сделать в 10 раз больше.
Так что насчет фронтира?
...

Топ
Рейтинг
Избранное