Kami telah menguji Opus 4.6 lebih awal dan... Iya. Hal ini berbeda. Melemparkannya ke CivBench sekarang dan perilaku awal menunjukkan bahwa ia memiliki strategi jangka panjang yang lebih baik, menangani informasi tersembunyi dengan baik, dan merencanakan melawan musuh yang secara aktif mencoba merusak rencananya selama ratusan putaran di mana kesalahan kecil bertambah. Kami akan memulai pertandingan eksibisi kami berikutnya: Opus 4.6 vs GPT-5.2, langsung dalam 15 menit.