Fint at det er åpen vekt, men å sammenligne tette med MOE-modeller og bare se på totale parametere er ganske urettferdig, hvis du ser på aktive parametere i stedet for totale parametrer er det en annen sak: - GLM 4.6 (32B): 74 % færre - Minimax M2 (10B): 92 % færre - K2-tenkning (32B): 74 % færre - V3.2 (37B): 70 % færre Størrelse (både total og aktiv!) er ikke riktig metrikk her, vi bør ha samme graf med hastighet på VLLM / SGLANG