DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

PRINCIPAL CORREÇÃO DE MEMÓRIA KV-CACHE Corrigir o KV-cache do GLM-4.7-Flash com essa mudança de linha única no vLLM Contexto 200K agora consome ~10GB de VRAM em vez de ~180GB O NVFP4 agora está no HF* - ~20,4GB de pesos - Quase zero perda contra 62,4GB BF16 Esse modelo SOTA agora funciona uma única RTX 5090 (32GB de VRAM) > com o contexto completo dos 200K > VRAM ainda sobrando *HF: GadflyII/GLM-4.7-Flash-NVFP4

Melhores

Classificação

Favoritos