Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ahmad
AI-onderzoeker en software-engineer, op een missie om een DGX B200 GPU-cluster te bouwen
NVFP4 is nu beschikbaar op HF*
Gewichten komen uit op ~20,4GB
Stel je voor dat je dit draait op een RTX 5090 (32GB VRAM)
met bijna geen verlies in prestaties of nauwkeurigheid ten opzichte van 62,4GB
*HF: GadflyII/GLM-4.7-Flash-NVFP4


Ahmad12 uur geleden
MASSIEF
Het jaar van lokale LLM's begint officieel
met GLM-4.7-Flash van Zhipu AI
> 30B-A3B MoE
> gebouwd voor consumenten-GPU's
> uitvoerbaar vanuit je kelder
> sterkste 30B-class release die we ooit hebben gezien
Dit is DE BESTE <=70B
die ik ooit lokaal heb uitgevoerd, Trouwens
Architectuur
> DeepSeek-stijl MLA aandacht
> slanke MoE routering
> 30B totale parameters, ~4B actief
> 64 experts totaal, 5 actief (incl. gedeeld)
Diepte & intentie
> ruwweg GLM-4.5-Air klasse
> maar harder afgestemd op localiteit
Benchmarks
SWE-bench Geverifieerd
> GLM-4.7-Flash: 59.2
> Qwen3-30B-A3B: 22.0
> GPT-OSS-20B: 34.0
> Nemotron-3-Nano-30B-A3B: 38.8
> niet dezelfde universum
τ²-Bench
> GLM-4.7-Flash: 79.5
> Qwen3-30B-A3B: 49.0
> GPT-OSS-20B: 47.7
> agentisch + toolgebruik geklaard
BrowseComp:
> GLM-4.7-Flash: 42.8
> Qwen3-30B-A3B: 2.3
> GPT-OSS-20B: 28.3
> ja, Qwen 30B-A3B heeft twee komma drie
> webredenering breekt nog steeds modellen
AIME 25
> GLM-4.7-Flash: 91.6
> Qwen3-30B-A3B: 85.0
> GPT-OSS-20B: 91.7
> ~4B actieve parameters Trouwens
GPQA
> GLM-4.7-Flash: 75.2
> Qwen3-30B-A3B: 73.4
> GPT-OSS-20B: 71.5
> stille, consistente voorsprong
HLE
> GLM-4.7-Flash: 14.4
> Qwen3-30B-A3B: 9.8
> GPT-OSS-20B: 10.9
> nog steeds wreed voor iedereen
> GLM doet gewoon minder pijn
Contextvenster realiteitscheck
> FP16 gewichten passen met
> ~27k tokens op een RTX PRO 6000
> of 4x RTX 3090's (96GB VRAM)
> 4-bit AWQ gewichten passen met
> ~70k token context op een RTX PRO 6000
> of 4x RTX 3090's (96GB VRAM)
> herinnering: KV-cache, niet gewichten, is de echte belasting
> waarom?
> dikke KV-koppen
> ~3x VRAM per token vs GPT-OSS-120B
> hoewel beide rond ~60GB gewichten zitten
Lokale pijnpunten
> vLLM / SGLang: op hoofd, nog steeds een beetje onvolwassen
> nieuwe arch + kernels = ruwe randen
> KV-cache kan snel bijten zoals hierboven gezien
> afhankelijk van dtype + kernelpad
Wat er echt toe doet
> stabiele MLA-kernels over meer GPU's
> FP8 / kwantumdaling + schone GGUF's
> echte "dagelijkse bestuurder" rapporten
> voelt SWE 59.2 echt als 59.2 in echte repos?
Als je op RTX 5090's/4090's/3090's of
PRO 6000/PRO 5000/PRO 4500/PRO 4000 stacks bent
> dit is jouw baan
> 30B-A3B-class, lokaal, echte toolgebruik scores
> kernels rijpen en dit wordt een standaardinstallatie
> nu wachten we op kwants, kernels en rapporten van lokale gemeenschapsleden
> Koop een GPU
> voer je LLM's lokaal uit

10
MASSIEF
Het jaar van lokale LLM's begint officieel
met GLM-4.7-Flash van Zhipu AI
> 30B-A3B MoE
> gebouwd voor consumenten-GPU's
> uitvoerbaar vanuit je kelder
> sterkste 30B-class release die we ooit hebben gezien
Dit is DE BESTE <=70B
die ik ooit lokaal heb uitgevoerd, Trouwens
Architectuur
> DeepSeek-stijl MLA aandacht
> slanke MoE routering
> 30B totale parameters, ~4B actief
> 64 experts totaal, 5 actief (incl. gedeeld)
Diepte & intentie
> ruwweg GLM-4.5-Air klasse
> maar harder afgestemd op localiteit
Benchmarks
SWE-bench Geverifieerd
> GLM-4.7-Flash: 59.2
> Qwen3-30B-A3B: 22.0
> GPT-OSS-20B: 34.0
> Nemotron-3-Nano-30B-A3B: 38.8
> niet dezelfde universum
τ²-Bench
> GLM-4.7-Flash: 79.5
> Qwen3-30B-A3B: 49.0
> GPT-OSS-20B: 47.7
> agentisch + toolgebruik geklaard
BrowseComp:
> GLM-4.7-Flash: 42.8
> Qwen3-30B-A3B: 2.3
> GPT-OSS-20B: 28.3
> ja, Qwen 30B-A3B heeft twee komma drie
> webredenering breekt nog steeds modellen
AIME 25
> GLM-4.7-Flash: 91.6
> Qwen3-30B-A3B: 85.0
> GPT-OSS-20B: 91.7
> ~4B actieve parameters Trouwens
GPQA
> GLM-4.7-Flash: 75.2
> Qwen3-30B-A3B: 73.4
> GPT-OSS-20B: 71.5
> stille, consistente voorsprong
HLE
> GLM-4.7-Flash: 14.4
> Qwen3-30B-A3B: 9.8
> GPT-OSS-20B: 10.9
> nog steeds wreed voor iedereen
> GLM doet gewoon minder pijn
Contextvenster realiteitscheck
> FP16 gewichten passen met
> ~27k tokens op een RTX PRO 6000
> of 4x RTX 3090's (96GB VRAM)
> 4-bit AWQ gewichten passen met
> ~70k token context op een RTX PRO 6000
> of 4x RTX 3090's (96GB VRAM)
> herinnering: KV-cache, niet gewichten, is de echte belasting
> waarom?
> dikke KV-koppen
> ~3x VRAM per token vs GPT-OSS-120B
> hoewel beide rond ~60GB gewichten zitten
Lokale pijnpunten
> vLLM / SGLang: op hoofd, nog steeds een beetje onvolwassen
> nieuwe arch + kernels = ruwe randen
> KV-cache kan snel bijten zoals hierboven gezien
> afhankelijk van dtype + kernelpad
Wat er echt toe doet
> stabiele MLA-kernels over meer GPU's
> FP8 / kwantumdaling + schone GGUF's
> echte "dagelijkse bestuurder" rapporten
> voelt SWE 59.2 echt als 59.2 in echte repos?
Als je op RTX 5090's/4090's/3090's of
PRO 6000/PRO 5000/PRO 4500/PRO 4000 stacks bent
> dit is jouw baan
> 30B-A3B-class, lokaal, echte toolgebruik scores
> kernels rijpen en dit wordt een standaardinstallatie
> nu wachten we op kwants, kernels en rapporten van lokale gemeenschapsleden
> Koop een GPU
> voer je LLM's lokaal uit

42
Boven
Positie
Favorieten
