熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Jakub Pachocki
開放AI
上週,我們的推理模型參加了2025年國際大學生程序設計競賽(ICPC),這是全球頂尖的大學級編程比賽。我們的系統解決了12個問題中的全部12個,這一表現將我們置於全球第一(最佳人類團隊解決了11個問題)。
這一里程碑標誌著我們模型在過去兩個月中激烈競爭表現的結束:
- 在AtCoder啓發式世界決賽中獲得第二名
- 在國際數學奧林匹克中獲得金牌
- 在國際信息學奧林匹克中獲得金牌
- 現在,在ICPC世界決賽中獲得金牌,取得第一名。
我相信,這些結果來自於我們主要研究項目中的一系列通用推理模型,或許是今年進展的最清晰基準。這些比賽是發現新想法的絕佳自我封閉、時間限制測試。即使在我們的模型熟練掌握簡單算術之前,我們就將這些比賽視為朝向變革性人工智能進展的里程碑。
當面臨明確的問題並限制在約5小時內時,我們的模型現在在這些領域中排名接近頂尖人類。現在的挑戰是轉向更開放的問題,以及更長的時間範圍。這種推理能力的水平,應用於真正重要的問題上,持續數月甚至數年,正是我們所追求的——自動化科學發現。
這一快速進展也強調了安全與對齊研究的重要性。我們仍然需要更多瞭解長期運行推理模型的對齊特性;特別是,我建議回顧我們今天發佈的關於推理模型中策劃行為的研究中令人著迷的發現。
祝賀我的隊友們,他們傾注了心血以取得這些比賽結果,也祝賀所有為支持這些成果的基礎研究做出貢獻的人!

Mostafa Rohaninejad9月18日 01:06
1/n
我非常興奮地分享,我們的 @OpenAI 推理系統在 2025 年 ICPC 世界總決賽中獲得了 12/12 的完美分數,這是全球頂尖大學團隊解決複雜算法問題的頂級大學編程比賽。這將使它在所有人類參與者中名列第一。 🥇🥇

167
我對思維鏈、忠實性和可解釋性的潛力感到非常興奮。它極大地影響了我們推理模型的設計,從 o1-preview 開始。
隨著人工智慧系統花費更多的運算工作,例如在長期研究問題上,我們必須有某種方法來監控其內部流程。隱藏 CoT 的奇妙特性在於,雖然它們以我們可以解釋的語言為基礎,但可擴展的最佳化過程並不不利於觀察者驗證模型意圖的能力 - 這與獎勵模型的直接監督不同。
這裡的緊張關係在於,如果 CoT 默認情況下沒有隱藏,並且我們將該過程視為 AI 輸出的一部分,那麼就有很大的動力(在某些情況下,有必要)對其進行監督。我相信我們可以在這裡努力實現兩全其美——訓練我們的模型能夠很好地解釋其內部推理,但同時仍然保留偶爾驗證它的能力。
CoT 忠實度是更廣泛的研究方向的一部分,該方向是可解釋性訓練:以一種訓練系統至少部分保持誠實和可監控的方式設定目標。我們將繼續增加對 OpenAI 這項研究的投資。

Bowen Baker2025年7月16日
Modern reasoning models think in plain English.
Monitoring their thoughts could be a powerful, yet fragile, tool for overseeing future AI systems.
I and researchers across many organizations think we should work to evaluate, preserve, and even improve CoT monitorability.

347
熱門
排行
收藏