من الجيد أن يكون الوزن مفتوحا، لكن مقارنة نماذج الكثافة مقابل نماذج MOE والنظر فقط إلى البارامات الإجمالية أمر غير عادل، إذا نظرت إلى البارامات النشطة بدلا من البارامات الكلية فالقصة مختلفة: - GLM 4.6 (32B): أقل بنسبة 74٪ - مينيماكس M2 (10B): أقل بنسبة 92٪ - التفكير في K2 (32B): أقل بنسبة 74٪ - V3.2 (37B): أقل بنسبة 70٪ الحجم (سواء الكلي أو النشط!) ليس المقياس الصحيح هنا، يجب أن يكون لدينا نفس الرسم البياني مع السرعة على VLLM / sglang