МАСШТАБНЫЙ ФИКС ПАМЯТИ KV-CACHE Исправьте KV-кэш GLM-4.7-Flash с помощью этого однострочного изменения в vLLM 200K контекст теперь занимает ~10 ГБ VRAM вместо ~180 ГБ NVFP4 теперь на HF* - ~20.4 ГБ весов - Почти нулевая потеря по сравнению с 62.4 ГБ BF16 Эта SOTA модель теперь работает на одном RTX 5090 (32 ГБ VRAM) > с полным 200K контекстом > VRAM все еще остается *HF: GadflyII/GLM-4.7-Flash-NVFP4