Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ahmad
Cercetător AI și inginer software, în misiunea de a construi un cluster GPU DGX B200
NVFP4 este acum disponibil pe HF*
Greutățile sunt de ~20,4GB
Imaginează-ți că rulezi asta pe un RTX 5090 (32GB VRAM)
cu pierderi aproape zero de performanță sau acuratețe față de 62,4GB
*HF: GadflyII/GLM-4.7-Flash-NVFP4


AhmadCu 7 ore în urmă
URIAȘ
Anul LLM-urilor locale începe oficial
cu GLM-4.7-Flash de la Zhipu AI
> 30B-A3B MoE
> construit pentru GPU-uri de consum
> poate fi folosit din subsolul tău
> cea mai puternică lansare clasa 30B pe care am văzut-o vreodată
Acesta este CEL MAI BUN <=70B
Am alergat vreodată local, apropo
Arhitectură
> atenție MLA în stil DeepSeek
> rutare MoE subțire
> 30B parametri în total, ~4B activi
> 64 de experți în total, 5 activi (inclusiv partajați)
Adâncime și intenție
> aproximativ clasa GLM-4.5-Air
> dar a fost reglat mai intens pentru localitate
Repere
SWE-bench Verificat
> GLM-4.7-Flash: 59.2
> Qwen3-30B-A3B: 22.0
> GPT-OSS-20B: 34.0
> Nemotron-3-Nano-30B-A3B: 38,8
> nu același univers
τ²-Bench
> GLM-4.7-Flash: 79.5
> Qwen3-30B-A3B: 49.0
> GPT-OSS-20B: 47,7
> agentic + utilizare a uneltelor aprobat
BrowseComp:
> GLM-4.7-Flash: 42.8
> Qwen3-30B-A3B: 2.3
> GPT-OSS-20B: 28.3
> da, Qwen 30B-A3B are două virgulă trei
> raționamentul web încă strică modelele
AIME 25
> GLM-4.7-Flash: 91.6
> Qwen3-30B-A3B: 85.0
> GPT-OSS-20B: 91.7
> ~4B parametri activi, apropo
GPQA
> GLM-4.7-Flash: 75.2
> Qwen3-30B-A3B: 73,4
> GPT-OSS-20B: 71,5
> conducere liniștită și constantă
HLE
> GLM-4.7-Flash: 14.4
> Qwen3-30B-A3B: 9.8
> GPT-OSS-20B: 10.9
> încă brutal pentru toată lumea
> GLM doare mai puțin
Verificarea realității pe fereastra contextului
> greutăți FP16 se potrivesc cu
> ~27k jetoane pe un RTX PRO 6000
> sau 4x RTX 3090 (96GB VRAM)
> greutăți AWQ pe 4 biți se potrivesc cu
> ~70k context de token pe un RTX PRO 6000
> sau 4x RTX 3090 (96GB VRAM)
> reamintire: Cache-ul KV, nu greutățile, este adevărata taxă
> de ce?
> capete KV groase
> ~3x VRAM per token față de GPT-OSS-120B
> chiar dacă ambele au greutăți de aproximativ ~60GB
Puncte sensibile locale
> vLLM / SGLang: pe principal, încă puțin imatur
> arc nou + nuclee = muchii aspre
> cache KV poate mușca rapid, așa cum s-a văzut mai sus
> depinde de dtype + calea nucleului
Ce contează cu adevărat în continuare
> kernel-uri MLA stabile pe mai multe GPU-uri
> FP8 / scăderi cantitative + GGUF-uri curate
> rapoarte reale despre "mașina de zi cu zi"
> se simte SWE 59.2 cu adevărat ca 59.2 în repozitorii reale?
Dacă folosești RTX 5090s/4090s/3090s sau
Stack-uri PRO 6000/PRO 5000/PRO 4500/PRO 4000
> asta e zona ta
> Scoruri 30B-A3B, locale, de utilizare reală a uneltelor
> kernel-uri se maturizează și aceasta devine o instalare implicită
> acum așteptăm quants, kernel-uri și rapoarte de la oamenii comunității locale
> Cumpără o placă video
> îți administrezi LLM-urile local

2
URIAȘ
Anul LLM-urilor locale începe oficial
cu GLM-4.7-Flash de la Zhipu AI
> 30B-A3B MoE
> construit pentru GPU-uri de consum
> poate fi folosit din subsolul tău
> cea mai puternică lansare clasa 30B pe care am văzut-o vreodată
Acesta este CEL MAI BUN <=70B
Am alergat vreodată local, apropo
Arhitectură
> atenție MLA în stil DeepSeek
> rutare MoE subțire
> 30B parametri în total, ~4B activi
> 64 de experți în total, 5 activi (inclusiv partajați)
Adâncime și intenție
> aproximativ clasa GLM-4.5-Air
> dar a fost reglat mai intens pentru localitate
Repere
SWE-bench Verificat
> GLM-4.7-Flash: 59.2
> Qwen3-30B-A3B: 22.0
> GPT-OSS-20B: 34.0
> Nemotron-3-Nano-30B-A3B: 38,8
> nu același univers
τ²-Bench
> GLM-4.7-Flash: 79.5
> Qwen3-30B-A3B: 49.0
> GPT-OSS-20B: 47,7
> agentic + utilizare a uneltelor aprobat
BrowseComp:
> GLM-4.7-Flash: 42.8
> Qwen3-30B-A3B: 2.3
> GPT-OSS-20B: 28.3
> da, Qwen 30B-A3B are două virgulă trei
> raționamentul web încă strică modelele
AIME 25
> GLM-4.7-Flash: 91.6
> Qwen3-30B-A3B: 85.0
> GPT-OSS-20B: 91.7
> ~4B parametri activi, apropo
GPQA
> GLM-4.7-Flash: 75.2
> Qwen3-30B-A3B: 73,4
> GPT-OSS-20B: 71,5
> conducere liniștită și constantă
HLE
> GLM-4.7-Flash: 14.4
> Qwen3-30B-A3B: 9.8
> GPT-OSS-20B: 10.9
> încă brutal pentru toată lumea
> GLM doare mai puțin
Verificarea realității pe fereastra contextului
> greutăți FP16 se potrivesc cu
> ~27k jetoane pe un RTX PRO 6000
> sau 4x RTX 3090 (96GB VRAM)
> greutăți AWQ pe 4 biți se potrivesc cu
> ~70k context de token pe un RTX PRO 6000
> sau 4x RTX 3090 (96GB VRAM)
> reamintire: Cache-ul KV, nu greutățile, este adevărata taxă
> de ce?
> capete KV groase
> ~3x VRAM per token față de GPT-OSS-120B
> chiar dacă ambele au greutăți de aproximativ ~60GB
Puncte sensibile locale
> vLLM / SGLang: pe principal, încă puțin imatur
> arc nou + nuclee = muchii aspre
> cache KV poate mușca rapid, așa cum s-a văzut mai sus
> depinde de dtype + calea nucleului
Ce contează cu adevărat în continuare
> kernel-uri MLA stabile pe mai multe GPU-uri
> FP8 / scăderi cantitative + GGUF-uri curate
> rapoarte reale despre "mașina de zi cu zi"
> se simte SWE 59.2 cu adevărat ca 59.2 în repozitorii reale?
Dacă folosești RTX 5090s/4090s/3090s sau
Stack-uri PRO 6000/PRO 5000/PRO 4500/PRO 4000
> asta e zona ta
> Scoruri 30B-A3B, locale, de utilizare reală a uneltelor
> kernel-uri se maturizează și aceasta devine o instalare implicită
> acum așteptăm quants, kernel-uri și rapoarte de la oamenii comunității locale
> Cumpără o placă video
> îți administrezi LLM-urile local

2
Limită superioară
Clasament
Favorite
