Недавно была выпущена новая модель открытого рассуждения K2-Think, которая похвасталась результатами, сопоставимыми с GPT-OSS 120B, и привлекла много внимания СМИ. Тем не менее, их производительность зависит от ошибочной оценки, отмеченной загрязнением, несправедливыми сравнениями и искажением результатов. 🧵