Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ahmad
Pesquisador de IA e engenheiro de software, em uma missão para construir um cluster de GPU DGX B200
O NVFP4 já está disponível no HF*
Os pesos têm cerca de ~20.4GB
Imagine executar isto num RTX 5090 (32GB VRAM)
com quase nenhuma perda de desempenho ou precisão em comparação com 62.4GB
*HF: GadflyII/GLM-4.7-Flash-NVFP4


AhmadHá 11 horas
MASSIVO
O ano dos LLMs Locais começa oficialmente
com o GLM-4.7-Flash da Zhipu AI
> 30B-A3B MoE
> construído para GPUs de consumo
> executável a partir do seu porão
> o lançamento mais forte da classe 30B que já vimos
Este é O MELHOR <=70B
que já executei localmente, a propósito
Arquitetura
> Atenção MLA estilo DeepSeek
> roteamento MoE slim
> 30B de parâmetros totais, ~4B ativos
> 64 especialistas no total, 5 ativos (incl. compartilhados)
Profundidade e intenção
> aproximadamente da classe GLM-4.5-Air
> mas ajustado mais para localidade
Benchmarks
SWE-bench Verificado
> GLM-4.7-Flash: 59.2
> Qwen3-30B-A3B: 22.0
> GPT-OSS-20B: 34.0
> Nemotron-3-Nano-30B-A3B: 38.8
> não é o mesmo universo
τ²-Bench
> GLM-4.7-Flash: 79.5
> Qwen3-30B-A3B: 49.0
> GPT-OSS-20B: 47.7
> agente + uso de ferramentas limpo
BrowseComp:
> GLM-4.7-Flash: 42.8
> Qwen3-30B-A3B: 2.3
> GPT-OSS-20B: 28.3
> sim, Qwen 30B-A3B tem dois ponto três
> raciocínio na web ainda quebra modelos
AIME 25
> GLM-4.7-Flash: 91.6
> Qwen3-30B-A3B: 85.0
> GPT-OSS-20B: 91.7
> ~4B de parâmetros ativos, a propósito
GPQA
> GLM-4.7-Flash: 75.2
> Qwen3-30B-A3B: 73.4
> GPT-OSS-20B: 71.5
> liderança silenciosa e consistente
HLE
> GLM-4.7-Flash: 14.4
> Qwen3-30B-A3B: 9.8
> GPT-OSS-20B: 10.9
> ainda brutal para todos
> GLM apenas dói menos
Verificação da realidade da janela de contexto
> pesos FP16 cabem com
> ~27k tokens em uma RTX PRO 6000
> ou 4x RTX 3090s (96GB VRAM)
> pesos AWQ de 4 bits cabem com
> ~70k tokens de contexto em uma RTX PRO 6000
> ou 4x RTX 3090s (96GB VRAM)
> lembrete: cache KV, não pesos, é o verdadeiro imposto
> por quê?
> cabeçotes KV grossos
> ~3x VRAM por token vs GPT-OSS-120B
> mesmo que ambos fiquem em torno de ~60GB de pesos
Pontos de dor locais
> vLLM / SGLang: na principal, ainda um pouco imaturo
> nova arquitetura + kernels = arestas ásperas
> cache KV pode morder rápido, como visto acima
> dependendo do dtype + caminho do kernel
O que realmente importa a seguir
> kernels MLA estáveis em mais GPUs
> quedas FP8 / quant + GGUFs limpos
> relatórios reais de "motorista diário"
> será que SWE 59.2 realmente se sente como 59.2 em repositórios reais?
Se você está em RTX 5090s/4090s/3090s ou
PRO 6000/PRO 5000/PRO 4500/PRO 4000
> esta é a sua área
> classe 30B-A3B, local, pontuações reais de uso de ferramentas
> kernels amadurecem e isso se torna uma instalação padrão
> agora esperamos por quantizações, kernels e relatórios de pessoas da comunidade local
> Compre uma GPU
> execute seus LLMs localmente

7
MASSIVO
O ano dos LLMs Locais começa oficialmente
com o GLM-4.7-Flash da Zhipu AI
> 30B-A3B MoE
> construído para GPUs de consumo
> executável a partir do seu porão
> o lançamento mais forte da classe 30B que já vimos
Este é O MELHOR <=70B
que já executei localmente, a propósito
Arquitetura
> Atenção MLA estilo DeepSeek
> roteamento MoE slim
> 30B de parâmetros totais, ~4B ativos
> 64 especialistas no total, 5 ativos (incl. compartilhados)
Profundidade e intenção
> aproximadamente da classe GLM-4.5-Air
> mas ajustado mais para localidade
Benchmarks
SWE-bench Verificado
> GLM-4.7-Flash: 59.2
> Qwen3-30B-A3B: 22.0
> GPT-OSS-20B: 34.0
> Nemotron-3-Nano-30B-A3B: 38.8
> não é o mesmo universo
τ²-Bench
> GLM-4.7-Flash: 79.5
> Qwen3-30B-A3B: 49.0
> GPT-OSS-20B: 47.7
> agente + uso de ferramentas limpo
BrowseComp:
> GLM-4.7-Flash: 42.8
> Qwen3-30B-A3B: 2.3
> GPT-OSS-20B: 28.3
> sim, Qwen 30B-A3B tem dois ponto três
> raciocínio na web ainda quebra modelos
AIME 25
> GLM-4.7-Flash: 91.6
> Qwen3-30B-A3B: 85.0
> GPT-OSS-20B: 91.7
> ~4B de parâmetros ativos, a propósito
GPQA
> GLM-4.7-Flash: 75.2
> Qwen3-30B-A3B: 73.4
> GPT-OSS-20B: 71.5
> liderança silenciosa e consistente
HLE
> GLM-4.7-Flash: 14.4
> Qwen3-30B-A3B: 9.8
> GPT-OSS-20B: 10.9
> ainda brutal para todos
> GLM apenas dói menos
Verificação da realidade da janela de contexto
> pesos FP16 cabem com
> ~27k tokens em uma RTX PRO 6000
> ou 4x RTX 3090s (96GB VRAM)
> pesos AWQ de 4 bits cabem com
> ~70k tokens de contexto em uma RTX PRO 6000
> ou 4x RTX 3090s (96GB VRAM)
> lembrete: cache KV, não pesos, é o verdadeiro imposto
> por quê?
> cabeçotes KV grossos
> ~3x VRAM por token vs GPT-OSS-120B
> mesmo que ambos fiquem em torno de ~60GB de pesos
Pontos de dor locais
> vLLM / SGLang: na principal, ainda um pouco imaturo
> nova arquitetura + kernels = arestas ásperas
> cache KV pode morder rápido, como visto acima
> dependendo do dtype + caminho do kernel
O que realmente importa a seguir
> kernels MLA estáveis em mais GPUs
> quedas FP8 / quant + GGUFs limpos
> relatórios reais de "motorista diário"
> será que SWE 59.2 realmente se sente como 59.2 em repositórios reais?
Se você está em RTX 5090s/4090s/3090s ou
PRO 6000/PRO 5000/PRO 4500/PRO 4000
> esta é a sua área
> classe 30B-A3B, local, pontuações reais de uso de ferramentas
> kernels amadurecem e isso se torna uma instalação padrão
> agora esperamos por quantizações, kernels e relatórios de pessoas da comunidade local
> Compre uma GPU
> execute seus LLMs localmente

28
Top
Classificação
Favoritos
