schön, dass es ein offenes Gewicht gibt, aber den Vergleich zwischen dichten und moe Modellen anzustellen und nur die Gesamtparameter zu betrachten, ist ziemlich unfair. Wenn man die aktiven Parameter anstelle der Gesamtparameter betrachtet, sieht die Geschichte anders aus: - GLM 4.6 (32B): 74% weniger - Minimax M2 (10B): 92% weniger - K2 Denken (32B): 74% weniger - V3.2 (37B): 70% weniger Die Größe (sowohl insgesamt als auch aktiv!) ist hier nicht das richtige Maß, wir sollten das gleiche Diagramm mit der Geschwindigkeit auf vllm / sglang haben.