Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Многие люди любят сравнивать разные классы моделей, такие как "рассуждающие" или "нерациональные", в то время как на самом деле все они сейчас обучены с использованием хорошего количества одних и тех же техник обучения с подкреплением (и других вещей).
Правильный взгляд заключается в том, чтобы рассматривать каждую модель в контексте спектра усилий по рассуждению. Многие говорят, что Claude — это нерешаемая модель, но они были одними из первых, кто использовал специальные токены и UX для "глубокого мышления, подождите" (за долго до их расширенного режима мышления). То же самое можно сказать о DeepSeek v3.1, который выпущен, но пока не так просто использовать. Мы не знаем, сколько токенов на ответ используется в чат-версиях этих моделей по умолчанию.
API с точным количеством токенов — это единственный источник правды, и их следует сообщать гораздо чаще.
Затем, в рамках рассуждающих моделей существует огромная вариация в количестве используемых токенов. Цена моделей должна быть окончательным критерием усилий, смесью общего количества активных параметров и количества используемых токенов. Слушая Дилана Пателя на подкасте a16z, кажется, что одной из больших побед GPT-5 в режиме мышления, который мне нравится (аналогично o3), было получение немного лучших результатов с почти на 50% меньшим количеством токенов. Я немного это почувствовал, это просто более целенаправленно, чем o3.
Еще один момент — это второе поколение R1, R1-0528 улучшило результаты, используя гораздо больше рассуждений. Qwen был похожим. Это не всегда суперценно для пользователя.
На техническом уровне мы решаем это, сообщая количество токенов, использованных на модель, в результатах оценки (особенно относительно сверстников). Проблема в том, что запуски ИИ теперь довольно мейнстримные, и это нюансированная техническая деталь для коммуникации.
С точки зрения исследований, например, вы можете значительно увеличить свои оценки, оценивая свою модель рассуждений на более длинном контексте, чем ваши сверстники.
Усилия по рассуждению в токенах, а иногда и в системном запросе, теперь являются сложной переменной, но не простым да/нет во всех этих выпусках.
Ниже приведен скриншот из поста, обсуждающего это до выпуска o1 (12 сентября прошлого года), и скриншот пользователя reddit, который раскрыл поведение мышления Claude.
Сохраняю этот поток мыслей для будущего использования, потому что мне нужно повторять это все время.


25,01K
Топ
Рейтинг
Избранное