開放權重真不錯,但比較密集模型與 Moe 模型時,只看總參數是不公平的,如果你看活躍參數而不是總參數,那就是另一回事: - GLM 4.6 (32B):少 74% - Minimax M2 (10B):少 92% - K2 思考 (32B):少 74% - V3.2 (37B):少 70% 大小(無論是總數還是活躍的!)在這裡都不是正確的指標,我們應該有同樣的圖表,顯示 vllm / sglang 的速度。