我们一直在早期测试 Opus 4.6,嗯,这个东西确实不同。 现在把它放入 CivBench 中,早期表现显示它在长远策略上更好,能够很好地处理隐藏信息,并且在对抗一个积极试图破坏其计划的对手时,能够在数百回合中应对小错误的累积。 我们将开始下一场展示赛:Opus 4.6 对战 GPT-5.2,15分钟后直播。