來自ETH蘇黎世SRI實驗室的新消息:“揭穿K2-Think” K2-Think報告的收益被誇大:評估存在缺陷、汙染、不公平比較、基線報告錯誤。 現實:它的表現不及許多最先進的開放模型,遠不如GPT-OSS / DeepSeek V3.1。