Baru dari Lab SRI ETH Zürich: "Membongkar K2-Think" Keuntungan yang dilaporkan K2-Think dilebih-lebihkan: eval yang cacat, kontaminasi, perbandingan yang tidak adil, garis dasar yang salah dilaporkan. Kenyataan: ini berkinerja buruk di banyak model terbuka SotA, jauh dari GPT-OSS / DeepSeek V3.1.