Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Jakub Pachocki

Технологія OpenAI

Минулого тижня наші моделі міркувань взяли участь у Міжнародному конкурсі університетського програмування (ICPC 2025), головному світовому конкурсі з програмування на університетському рівні. Наша система вирішила всі 12 з 12 проблем, і цей показник посів би перше місце у світі (найкраща людська команда вирішила 11 проблем). Ця віха завершує інтенсивні 2 місяці змагань наших моделей: - Друге місце у світовому фіналі AtCoder Heuristics - Золота медаль на Міжнародній математичній олімпіаді - Золота медаль на Міжнародній олімпіаді з інформатики - І ось, золота медаль, перше місце на Світовому фіналі ICPC. Я вважаю, що ці результати, отримані з сімейства моделей загального міркування, що ґрунтуються на нашій основній дослідницькій програмі, є, мабуть, найчіткішим орієнтиром прогресу цього року. Ці змагання є чудовими самодостатніми, обмеженими в часі тестами на здатність відкривати нові ідеї. Ще до того, як наші моделі навчилися простій арифметиці, ми розглядали ці змагання як віхи прогресу на шляху до трансформаційного штучного інтелекту. Наші моделі зараз входять до числа найкращих людей у цих сферах, коли їм ставлять чітко визначені запитання та обмежують їх тривалістю ~5 годин. Тепер проблема полягає в тому, щоб перейти до більш відкритих проблем і набагато довших часових горизонтів. Цей рівень здатності міркувати, який застосовується місяцями і роками до дійсно важливих проблем, і є тим, чого ми прагнемо - автоматизувати наукові відкриття. Цей швидкий прогрес також підкреслює важливість досліджень безпеки та вирівнювання. Нам все ще потрібно більше зрозуміти властивості вирівнювання довготривалих моделей міркувань; Зокрема, я рекомендую переглянути захоплюючі висновки з вивчення схем у моделях міркувань, які ми сьогодні оприлюднили ( Вітаю моїх товаришів по команді, які вклали своє серце в отримання цих результатів змагань, а також усіх, хто робить свій внесок у фундаментальні дослідження, які дозволяють їм!

Я надзвичайно захоплений потенціалом вірності та інтерпретації ланцюга думок. Це суттєво вплинуло на дизайн наших моделей міркувань, починаючи з o1-preview. Оскільки системи штучного інтелекту витрачають більше на роботу обчислень, наприклад, над довгостроковими дослідницькими проблемами, дуже важливо, щоб у нас був якийсь спосіб моніторингу їх внутрішнього процесу. Чудова властивість прихованих CoT полягає в тому, що, хоча вони починаються на мові, яку ми можемо інтерпретувати, масштабована процедура оптимізації не є змагальною для здатності спостерігача перевірити намір моделі - на відміну, наприклад, від прямого нагляду з моделлю винагороди. Напруга тут полягає в тому, що якщо CoT не були приховані за замовчуванням, і ми розглядаємо процес як частину виводу ШІ, є багато стимулів (а в деяких випадках і необхідність) встановити на нього нагляд. Я вважаю, що ми можемо працювати над тим, щоб досягти найкращого з обох світів тут – навчити наших моделей чудово пояснювати свої внутрішні міркування, але в той же час зберігати здатність час від часу перевіряти їх. Вірність CoT є частиною ширшого дослідницького напрямку, який полягає в навчанні інтерпретації: постановці цілей таким чином, щоб принаймні частина системи залишалася чесною та підлягала моніторингу за допомогою масштабу. Ми продовжуємо збільшувати наші інвестиції в це дослідження в OpenAI.

Найкращі

Рейтинг

Вибране