E frumos că este open weight, dar compararea modelelor dense cu cele moe și doar la parametrii totali este destul de nedrept, dacă te uiți la parametrii activi în loc de parametrii totali, povestea este diferită: - GLM 4,6 (32B): cu 74% mai puțin - Minimax M2 (10B): cu 92% mai puțin - Gândirea K2 (32B): cu 74% mai puțin - V3.2 (37B): cu 70% mai puțin Dimensiunea (atât totală, cât și activă!) nu este metrica corectă aici, ar trebui să avem același grafic cu viteza pe VLLM / SGLANG