Neu vom SRI Lab der ETH Zürich: „K2-Think entlarven“ Die berichteten Gewinne von K2-Think sind übertrieben: fehlerhafte Bewertungen, Kontamination, unfaire Vergleiche, falsch berichtete Baselines. Realität: Es schneidet schlechter ab als viele SotA-Open-Modelle, weit entfernt von GPT-OSS / DeepSeek V3.1.