来自ETH苏黎世SRI实验室的新消息:“揭穿K2-Think” K2-Think报告的收益被夸大:评估存在缺陷、污染、不公平比较、基线报告错误。 现实:它的表现不及许多最先进的开放模型,远不如GPT-OSS / DeepSeek V3.1。