thật tuyệt khi nó có trọng lượng mở, nhưng so sánh các mô hình dày đặc và moe và chỉ nhìn vào tổng số tham số là không công bằng, nếu bạn nhìn vào các tham số hoạt động thay vì tổng số tham số thì câu chuyện lại khác: - GLM 4.6 (32B): ít hơn 74% - Minimax M2 (10B): ít hơn 92% - K2 thinking (32B): ít hơn 74% - V3.2 (37B): ít hơn 70% kích thước (cả tổng hay hoạt động!) không phải là chỉ số đúng ở đây, chúng ta nên có cùng một biểu đồ với tốc độ trên vllm / sglang