主要的 KV-缓存内存修复 修复 GLM-4.7-Flash 的 KV-cache 只需在 vLLM 中进行这一行更改 200K 上下文现在只需 ~10GB 的 VRAM 而不是 ~180GB NVFP4 现在在 HF* - ~20.4GB 权重 - 与 62.4GB BF16 几乎没有损失 这个 SOTA 模型现在可以在 一台 RTX 5090(32GB VRAM)上运行 > 完整的 200K 上下文 > 仍然有剩余的 VRAM *HF: GadflyII/GLM-4.7-Flash-NVFP4