CORRECTION MAJEURE DE LA MÉMOIRE KV-CACHE Corrigez le KV-cache de GLM-4.7-Flash avec ce changement en une ligne dans vLLM 200K de contexte prend maintenant ~10 Go de VRAM au lieu de ~180 Go NVFP4 est maintenant sur HF* - poids de ~20,4 Go - presque aucune perte par rapport à 62,4 Go BF16 Ce modèle SOTA fonctionne maintenant sur une seule RTX 5090 (32 Go VRAM) > avec le contexte complet de 200K > VRAM encore disponible *HF : GadflyII/GLM-4.7-Flash-NVFP4