É bom que seja de peso aberto, mas comparar modelos densos vs MOE e olhar apenas para parâmetros totais é bem injusto, se você olhar para parâmetros ativos em vez de parámetros totais, a história é diferente: - GLM 4,6 (32B): 74% menos - Minimax M2 (10B): 92% menos - Pensamento K2 (32B): 74% menos - V3.2 (37B): 70% menos O tamanho (total ou ativo!) não é a métrica correta aqui, deveríamos ter o mesmo gráfico com velocidade no VLLM / SGLANG