Многие люди любят сравнивать разные классы моделей, такие как "рассуждающие" или "нерациональные", в то время как на самом деле все они сейчас обучены с использованием хорошего количества одних и тех же техник обучения с подкреплением (и других вещей). Правильный взгляд заключается в том, чтобы рассматривать каждую модель в контексте спектра усилий по рассуждению. Многие говорят, что Claude — это нерешаемая модель, но они были одними из первых, кто использовал специальные токены и UX для "глубокого мышления, подождите" (за долго до их расширенного режима мышления). То же самое можно сказать о DeepSeek v3.1, который выпущен, но пока не так просто использовать. Мы не знаем, сколько токенов на ответ используется в чат-версиях этих моделей по умолчанию. API с точным количеством токенов — это единственный источник правды, и их следует сообщать гораздо чаще. Затем, в рамках рассуждающих моделей существует огромная вариация в количестве используемых токенов. Цена моделей должна быть окончательным критерием усилий, смесью общего количества активных параметров и количества используемых токенов. Слушая Дилана Пателя на подкасте a16z, кажется, что одной из больших побед GPT-5 в режиме мышления, который мне нравится (аналогично o3), было получение немного лучших результатов с почти на 50% меньшим количеством токенов. Я немного это почувствовал, это просто более целенаправленно, чем o3. Еще один момент — это второе поколение R1, R1-0528 улучшило результаты, используя гораздо больше рассуждений. Qwen был похожим. Это не всегда суперценно для пользователя. На техническом уровне мы решаем это, сообщая количество токенов, использованных на модель, в результатах оценки (особенно относительно сверстников). Проблема в том, что запуски ИИ теперь довольно мейнстримные, и это нюансированная техническая деталь для коммуникации. С точки зрения исследований, например, вы можете значительно увеличить свои оценки, оценивая свою модель рассуждений на более длинном контексте, чем ваши сверстники. Усилия по рассуждению в токенах, а иногда и в системном запросе, теперь являются сложной переменной, но не простым да/нет во всех этих выпусках. Ниже приведен скриншот из поста, обсуждающего это до выпуска o1 (12 сентября прошлого года), и скриншот пользователя reddit, который раскрыл поведение мышления Claude. Сохраняю этот поток мыслей для будущего использования, потому что мне нужно повторять это все время.
25,02K