é bom que seja peso aberto, mas comparar modelos densos vs moe e olhar apenas para o total de parâmetros é bastante injusto, se você olhar para os parâmetros ativos em vez do total de parâmetros, é uma história diferente: - GLM 4.6 (32B): 74% menos - Minimax M2 (10B): 92% menos - K2 thinking (32B): 74% menos - V3.2 (37B): 70% menos o tamanho (tanto total quanto ativo!) não é a métrica certa aqui, deveríamos ter o mesmo gráfico com a velocidade em vllm / sglang