REMEDIEREA MAJORĂ A MEMORIEI KV-CACHE Repararea cache-ului KV al GLM-4.7-Flash odată cu această schimbare cu o singură linie în vLLM Contextul 200K consumă acum ~10GB VRAM în loc de ~180GB NVFP4 este acum pe HF* - ~20,4GB greutăți - Pierdere aproape zero față de 62,4GB BF16 Acest model SOTA funcționează acum o singură RTX 5090 (32GB VRAM) > cu contextul complet de 200K > VRAM încă rămasă *HF: GadflyII/GLM-4.7-Flash-NVFP4