leuk dat het open gewicht is, maar het vergelijken van dense vs moe modellen en alleen kijken naar het totale aantal parameters is behoorlijk oneerlijk. Als je in plaats van het totale aantal parameters naar actieve parameters kijkt, is het een ander verhaal: - GLM 4.6 (32B): 74% minder - Minimax M2 (10B): 92% minder - K2 denken (32B): 74% minder - V3.2 (37B): 70% minder grootte (zowel totaal als actief!) is hier niet de juiste maatstaf, we zouden dezelfde grafiek moeten hebben met snelheid op vllm / sglang