Recientemente se lanzó un nuevo modelo de razonamiento abierto, K2-Think, que cuenta con puntajes comparables a GPT-OSS 120B y recibe mucha atención de los medios. Sin embargo, su desempeño se basa en una evaluación defectuosa marcada por la contaminación, las comparaciones injustas y la tergiversación de los resultados. 🧵