熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
主要的 KV-cache 記憶體修正
修正 GLM-4.7-Flash 的 KV-cache
只需在 vLLM 中進行這一行更改
200K 上下文現在只需約 10GB 的 VRAM
而不是約 180GB
NVFP4 現在在 HF*
- 約 20.4GB 權重
- 與 62.4GB BF16 幾乎沒有損失
這個 SOTA 模型現在可以在
一個 RTX 5090 (32GB VRAM) 上運行
> 使用完整的 200K 上下文
> 仍然有剩餘的 VRAM
*HF: GadflyII/GLM-4.7-Flash-NVFP4

熱門
排行
收藏
