最近發佈了一種新的開放推理模型 K2-Think,其得分與 GPT-OSS 120B 相當,並引起了大量媒體關注。 然而,他們的表現依賴於存在缺陷的評估,這些評估受到汙染、不公平比較和結果誤傳的影響。 🧵