Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Багато людей люблять порівнювати різні класи моделей, такі як «міркування» або «неміркування», де насправді всі вони тренуються з великою кількістю одних і тих же методів навчання з підкріпленням (та іншими речами).
Правильний погляд полягає в тому, щоб розглядати кожен випуск моделі з урахуванням спектру зусиль для обґрунтування. Багато хто говорить, що Claude - це модель без міркувань, але вони були одними з перших, хто мав спеціальні токени та UX для «глибокого мислення, стояння осторонь» (задовго до їхнього розширеного режиму мислення). Те ж саме може бути вірним і для DeepSeek v3.1, який випущений, але ще не простий у використанні. Ми поняття не маємо, скільки токенів на відповідь використовується в чат-версіях цих моделей за замовчуванням.
API з точною кількістю токенів є єдиним джерелом правди, і про них слід повідомляти набагато частіше.
Крім того, в моделях міркувань існує величезна різниця в кількості використовуваних токенів. Ціна моделей повинна полягати в остаточному врахуванні зусиль, поєднанні загальної кількості активних параметрів і кількості використаних токенів. Слухаючи Ділана Пателя в подкасті a16z, здається, що однією з великих перемог GPT-5 у режимі мислення, який я люблю (подібно до o3), було отримання трохи кращих результатів із майже на 50% меншою кількістю токенів. Я це трохи відчув, це просто більше на завданні, ніж o3.
Ще один момент полягає в тому, що друге покоління R1, R1-0528 покращило результати за рахунок використання набагато більшої кількості міркувань. Qwen була схожою. Це не завжди дуже цінно для користувача.
На технічному рівні ми вирішуємо це, повідомляючи про кількість токенів, використаних на модель у результатах оцінювання (особливо щодо аналогів). Проблема полягає в тому, що запуск штучного інтелекту зараз досить поширений, і це тонка технічна деталь для спілкування.
Що стосується досліджень, наприклад, ви можете значно підвищити свої оціночні бали, оцінюючи свою модель міркування в більш тривалому контексті, ніж ваші колеги.
Зусилля міркування в токенах, а іноді і в системному підказці, тепер є складною змінною, але не простим «так/ні» у всіх цих релізах.
Нижче наведено скріншот з допису, в якому обговорювалося це до виходу o1 (12 вересня минулого року), а також скріншот користувача reddit, який розкрив поведінку мислення Клода.
Зберігаю цю фразу для подальшого використання, тому що мені потрібно повторювати її весь час.


25,01K
Найкращі
Рейтинг
Вибране