è bello che sia a peso aperto, ma confrontare modelli densi vs moe e guardare solo il numero totale di parametri è piuttosto ingiusto; se guardi ai parametri attivi invece che ai parametri totali, è un'altra storia: - GLM 4.6 (32B): 74% in meno - Minimax M2 (10B): 92% in meno - K2 thinking (32B): 74% in meno - V3.2 (37B): 70% in meno la dimensione (sia totale che attiva!) non è la metrica giusta qui, dovremmo avere lo stesso grafico con la velocità su vllm / sglang