一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

主要的 KV-缓存内存修复修复 GLM-4.7-Flash 的 KV-cache 只需在 vLLM 中进行这一行更改 200K 上下文现在只需 ~10GB 的 VRAM 而不是 ~180GB NVFP4 现在在 HF* - ~20.4GB 权重 - 与 62.4GB BF16 几乎没有损失这个 SOTA 模型现在可以在一台 RTX 5090（32GB VRAM）上运行 > 完整的 200K 上下文 > 仍然有剩余的 VRAM *HF: GadflyII/GLM-4.7-Flash-NVFP4