Trevligt att det är öppen vikt, men att jämföra täta och MOE-modeller och bara titta på totala parametrar är ganska orättvist, om du tittar på aktiva parametrar istället för totala parametrar är det en annan sak: - GLM 4.6 (32B): 74 % färre - Minimax M2 (10B): 92 % färre - K2-tänkande (32B): 74 % färre - V3.2 (37B): 70 % färre storlek (både total och aktiv!) är inte rätt mått här, vi borde ha samma graf med hastighet på vllm / sglang