热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
主要的 KV-缓存内存修复
修复 GLM-4.7-Flash 的 KV-cache
只需在 vLLM 中进行这一行更改
200K 上下文现在只需 ~10GB 的 VRAM
而不是 ~180GB
NVFP4 现在在 HF*
- ~20.4GB 权重
- 与 62.4GB BF16 几乎没有损失
这个 SOTA 模型现在可以在
一台 RTX 5090(32GB VRAM)上运行
> 完整的 200K 上下文
> 仍然有剩余的 VRAM
*HF: GadflyII/GLM-4.7-Flash-NVFP4

热门
排行
收藏
