我們已經在早期測試 Opus 4.6,嗯,這東西不一樣。 現在把它放進 CivBench,早期行為顯示它在長期策略上表現更好,能很好地處理隱藏信息,並且在對抗一個積極試圖破壞其計劃的對手時,能在數百回合中有效規劃,因為小錯誤會累積。 我們將開始下一場展示賽:Opus 4.6 對 GPT-5.2,15 分鐘後直播。