主要的 KV-cache 記憶體修正 修正 GLM-4.7-Flash 的 KV-cache 只需在 vLLM 中進行這一行更改 200K 上下文現在只需約 10GB 的 VRAM 而不是約 180GB NVFP4 現在在 HF* - 約 20.4GB 權重 - 與 62.4GB BF16 幾乎沒有損失 這個 SOTA 模型現在可以在 一個 RTX 5090 (32GB VRAM) 上運行 > 使用完整的 200K 上下文 > 仍然有剩餘的 VRAM *HF: GadflyII/GLM-4.7-Flash-NVFP4