Un nouveau modèle de raisonnement ouvert, K2-Think, a récemment été lancé, affichant des scores comparables à ceux de GPT-OSS 120B et attirant beaucoup d'attention médiatique. Cependant, leur performance repose sur une évaluation défectueuse marquée par la contamination, des comparaisons injustes et une mauvaise représentation des résultats. 🧵