c'est bien que ce soit un poids ouvert, mais comparer les modèles denses et moe en ne regardant que le nombre total de paramètres est assez injuste, si vous regardez les paramètres actifs au lieu des paramètres totaux, c'est une autre histoire : - GLM 4.6 (32B) : 74 % de moins - Minimax M2 (10B) : 92 % de moins - K2 thinking (32B) : 74 % de moins - V3.2 (37B) : 70 % de moins la taille (qu'elle soit totale ou active !) n'est pas le bon critère ici, nous devrions avoir le même graphique avec la vitesse sur vllm / sglang