HLAVNÍ OPRAVA V KV-CACHE PAMĚTI Oprava KV-cache GLM-4.7-Flash s touto jednořádkovou změnou ve vLLM 200 000 kontextů nyní zabírá ~10GB VRAM místo ~180GB NVFP4 je nyní na HF* - ~20,4GB hmotnosti - Téměř nulová ztráta vs 62,4GB BF16 Tento model SOTA nyní běží na jedna RTX 5090 (32GB VRAM) > s plným kontextem 200 tisíc > VRAM ještě zbyl. *HF: GadflyII/GLM-4.7-Flash-NVFP4