很高兴它是开放权重,但比较密集模型与 moe 模型,仅仅看总参数是相当不公平的,如果你看活跃参数而不是总参数,那就是另一个故事: - GLM 4.6 (32B): 少74% - Minimax M2 (10B): 少92% - K2 thinking (32B): 少74% - V3.2 (37B): 少70% 大小(无论是总数还是活跃数!)在这里都不是正确的指标,我们应该有同样的图表,显示 vllm / sglang 的速度。