es genial que sea de peso abierto, pero comparar modelos densos vs moe y solo mirar los parámetros totales es bastante injusto, si miras los parámetros activos en lugar de los parámetros totales, es una historia diferente: - GLM 4.6 (32B): 74% menos - Minimax M2 (10B): 92% menos - K2 thinking (32B): 74% menos - V3.2 (37B): 70% menos ¡el tamaño (tanto total como activo!) no es la métrica correcta aquí, deberíamos tener el mismo gráfico con la velocidad en vllm / sglang