fajnie, że jest otwarta waga, ale porównywanie modeli dense i moe i patrzenie tylko na całkowitą liczbę parametrów jest dość niesprawiedliwe, jeśli spojrzysz na aktywne parametry zamiast całkowitych, to zupełnie inna historia: - GLM 4.6 (32B): 74% mniej - Minimax M2 (10B): 92% mniej - K2 thinking (32B): 74% mniej - V3.2 (37B): 70% mniej rozmiar (zarówno całkowity, jak i aktywny!) nie jest tutaj odpowiednią miarą, powinniśmy mieć ten sam wykres z prędkością na vllm / sglang