热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
上周,我们的推理模型参加了2025年国际大学生程序设计竞赛(ICPC),这是全球顶尖的大学级编程比赛。我们的系统解决了12个问题中的全部12个,这一表现将我们置于全球第一(最佳人类团队解决了11个问题)。
这一里程碑标志着我们模型在过去两个月中激烈竞争表现的结束:
- 在AtCoder启发式世界决赛中获得第二名
- 在国际数学奥林匹克中获得金牌
- 在国际信息学奥林匹克中获得金牌
- 现在,在ICPC世界决赛中获得金牌,取得第一名。
我相信,这些结果来自于我们主要研究项目中的一系列通用推理模型,或许是今年进展的最清晰基准。这些比赛是发现新想法的绝佳自我封闭、时间限制测试。即使在我们的模型熟练掌握简单算术之前,我们就将这些比赛视为朝向变革性人工智能进展的里程碑。
当面临明确的问题并限制在约5小时内时,我们的模型现在在这些领域中排名接近顶尖人类。现在的挑战是转向更开放的问题,以及更长的时间范围。这种推理能力的水平,应用于真正重要的问题上,持续数月甚至数年,正是我们所追求的——自动化科学发现。
这一快速进展也强调了安全与对齐研究的重要性。我们仍然需要更多了解长期运行推理模型的对齐特性;特别是,我建议回顾我们今天发布的关于推理模型中策划行为的研究中令人着迷的发现。
祝贺我的队友们,他们倾注了心血以取得这些比赛结果,也祝贺所有为支持这些成果的基础研究做出贡献的人!
热门
排行
收藏