Está bien que sea de peso abierto, pero comparar modelos densos con modelos MOE y solo mirar los parámetros totales es bastante injusto; si miras parámetros activos en vez de parámetros totales es otra historia: - GLM 4,6 (32B): 74% menos - Minimax M2 (10B): 92% menos - Pensamiento K2 (32B): 74% menos - V3.2 (37B): 70% menos El tamaño (¡tanto total como activo!) no es la métrica correcta aquí, deberíamos tener el mismo gráfico con velocidad en VLC / SGLANG