Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jakub Pachocki
Технологія OpenAI
Минулого тижня наші моделі міркувань взяли участь у Міжнародному конкурсі університетського програмування (ICPC 2025), головному світовому конкурсі з програмування на університетському рівні. Наша система вирішила всі 12 з 12 проблем, і цей показник посів би перше місце у світі (найкраща людська команда вирішила 11 проблем).
Ця віха завершує інтенсивні 2 місяці змагань наших моделей:
- Друге місце у світовому фіналі AtCoder Heuristics
- Золота медаль на Міжнародній математичній олімпіаді
- Золота медаль на Міжнародній олімпіаді з інформатики
- І ось, золота медаль, перше місце на Світовому фіналі ICPC.
Я вважаю, що ці результати, отримані з сімейства моделей загального міркування, що ґрунтуються на нашій основній дослідницькій програмі, є, мабуть, найчіткішим орієнтиром прогресу цього року. Ці змагання є чудовими самодостатніми, обмеженими в часі тестами на здатність відкривати нові ідеї. Ще до того, як наші моделі навчилися простій арифметиці, ми розглядали ці змагання як віхи прогресу на шляху до трансформаційного штучного інтелекту.
Наші моделі зараз входять до числа найкращих людей у цих сферах, коли їм ставлять чітко визначені запитання та обмежують їх тривалістю ~5 годин. Тепер проблема полягає в тому, щоб перейти до більш відкритих проблем і набагато довших часових горизонтів. Цей рівень здатності міркувати, який застосовується місяцями і роками до дійсно важливих проблем, і є тим, чого ми прагнемо - автоматизувати наукові відкриття.
Цей швидкий прогрес також підкреслює важливість досліджень безпеки та вирівнювання. Нам все ще потрібно більше зрозуміти властивості вирівнювання довготривалих моделей міркувань; Зокрема, я рекомендую переглянути захоплюючі висновки з вивчення схем у моделях міркувань, які ми сьогодні оприлюднили (
Вітаю моїх товаришів по команді, які вклали своє серце в отримання цих результатів змагань, а також усіх, хто робить свій внесок у фундаментальні дослідження, які дозволяють їм!

Mostafa Rohaninejad18 вер., 01:06
1/п
Я дуже радий повідомити, що наша система міркувань @OpenAI отримала ідеальний бал 12/12 під час Світового фіналу ICPC 2025, головного університетського змагання з програмування, де найкращі університетські команди з усього світу вирішують складні алгоритмічні задачі. Це поставило б її на перше місце серед усіх людей-учасників. 🥇🥇

204
Я надзвичайно захоплений потенціалом вірності та інтерпретації ланцюга думок. Це суттєво вплинуло на дизайн наших моделей міркувань, починаючи з o1-preview.
Оскільки системи штучного інтелекту витрачають більше на роботу обчислень, наприклад, над довгостроковими дослідницькими проблемами, дуже важливо, щоб у нас був якийсь спосіб моніторингу їх внутрішнього процесу. Чудова властивість прихованих CoT полягає в тому, що, хоча вони починаються на мові, яку ми можемо інтерпретувати, масштабована процедура оптимізації не є змагальною для здатності спостерігача перевірити намір моделі - на відміну, наприклад, від прямого нагляду з моделлю винагороди.
Напруга тут полягає в тому, що якщо CoT не були приховані за замовчуванням, і ми розглядаємо процес як частину виводу ШІ, є багато стимулів (а в деяких випадках і необхідність) встановити на нього нагляд. Я вважаю, що ми можемо працювати над тим, щоб досягти найкращого з обох світів тут – навчити наших моделей чудово пояснювати свої внутрішні міркування, але в той же час зберігати здатність час від часу перевіряти їх.
Вірність CoT є частиною ширшого дослідницького напрямку, який полягає в навчанні інтерпретації: постановці цілей таким чином, щоб принаймні частина системи залишалася чесною та підлягала моніторингу за допомогою масштабу. Ми продовжуємо збільшувати наші інвестиції в це дослідження в OpenAI.

Bowen Baker16 лип. 2025 р.
Сучасні моделі міркувань мислять простою англійською мовою.
Моніторинг їхніх думок може бути потужним, але крихким інструментом для нагляду за майбутніми системами штучного інтелекту.
Я та дослідники з багатьох організацій вважають, що ми повинні працювати над оцінкою, збереженням і навіть покращенням моніторингу CoT.

399
Найкращі
Рейтинг
Вибране