上週,我們的推理模型參加了2025年國際大學生程序設計競賽(ICPC),這是全球頂尖的大學級編程比賽。我們的系統解決了12個問題中的全部12個,這一表現將我們置於全球第一(最佳人類團隊解決了11個問題)。 這一里程碑標誌著我們模型在過去兩個月中激烈競爭表現的結束: - 在AtCoder啓發式世界決賽中獲得第二名 - 在國際數學奧林匹克中獲得金牌 - 在國際信息學奧林匹克中獲得金牌 - 現在,在ICPC世界決賽中獲得金牌,取得第一名。 我相信,這些結果來自於我們主要研究項目中的一系列通用推理模型,或許是今年進展的最清晰基準。這些比賽是發現新想法的絕佳自我封閉、時間限制測試。即使在我們的模型熟練掌握簡單算術之前,我們就將這些比賽視為朝向變革性人工智能進展的里程碑。 當面臨明確的問題並限制在約5小時內時,我們的模型現在在這些領域中排名接近頂尖人類。現在的挑戰是轉向更開放的問題,以及更長的時間範圍。這種推理能力的水平,應用於真正重要的問題上,持續數月甚至數年,正是我們所追求的——自動化科學發現。 這一快速進展也強調了安全與對齊研究的重要性。我們仍然需要更多瞭解長期運行推理模型的對齊特性;特別是,我建議回顧我們今天發佈的關於推理模型中策劃行為的研究中令人著迷的發現。 祝賀我的隊友們,他們傾注了心血以取得這些比賽結果,也祝賀所有為支持這些成果的基礎研究做出貢獻的人!