bagus bahwa itu bobot terbuka, tetapi membandingkan model padat vs moe dan hanya melihat parameter total cukup tidak adil, jika Anda melihat parameter aktif alih-alih parameter total, itu cerita yang berbeda: - GLM 4.6 (32B): 74% lebih sedikit - Minimax M2 (10B): 92% lebih sedikit - Pemikiran K2 (32B): 74% lebih sedikit - V3.2 (37B): 70% lebih sedikit Ukuran (baik total atau aktif!) bukanlah metrik yang tepat di sini, kita harus memiliki grafik yang sama dengan kecepatan pada VLLM / SGLANG