ETH ZürichのSRIラボからの新機能:「K2-Thinkの誤りを暴く」 K2-Thinkの報告された利益は、欠陥のある評価、汚染、不公平な比較、誤って報告されたベースラインなど、誇張されています。 現実: GPT-OSS / DeepSeek V3.1 からはほど遠い、多くの SotA オープン モデルのパフォーマンスを下回っています。