Fajn, že je to otevřená váha, ale porovnávat husté a MOE modely a dívat se jen na celkové parametry je dost nespravedlivé, když se podíváte na aktivní parametry místo celkových parametrů, je to jiný příběh: - GLM 4.6 (32B): o 74 % méně - Minimax M2 (10B): o 92 % méně - K2 myšlení (32B): o 74 % méně - V3.2 (37B): o 70 % méně Velikost (ať už celková nebo aktivní!) není tady správná metrika, měli bychom mít stejný graf s rychlostí na VLLM / Sglang