一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

主要的 KV-cache 記憶體修正修正 GLM-4.7-Flash 的 KV-cache 只需在 vLLM 中進行這一行更改 200K 上下文現在只需約 10GB 的 VRAM 而不是約 180GB NVFP4 現在在 HF* - 約 20.4GB 權重 - 與 62.4GB BF16 幾乎沒有損失這個 SOTA 模型現在可以在一個 RTX 5090 (32GB VRAM) 上運行 > 使用完整的 200K 上下文 > 仍然有剩餘的 VRAM *HF: GadflyII/GLM-4.7-Flash-NVFP4