Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ahmad
Tekoälytutkija ja ohjelmistosuunnittelija, jonka tehtävänä on rakentaa DGX B200 GPU-klusteri
NVFP4 on nyt saatavilla HF*:llä*
Painot ovat ~20,4 GB
Kuvittele ajavasi tätä RTX 5090:llä (32GB VRAM)
lähes nolla suorituskyvyn tai tarkkuuden heikkenemistä verrattuna 62,4GB:iin
*HF: GadflyII/GLM-4.7-Flash-NVFP4


Ahmad10 tuntia sitten
VALTAVA
Paikallisten LLM-vuosi alkaa virallisesti
GLM-4.7-Flash Zhipu AI:lta
> 30B-A3B MoE
> suunniteltu kuluttajanäytönohjaimille
> juoksettavissa kellaristasi
> vahvin 30B-luokan julkaisu, jonka olemme koskaan nähneet
Tämä on PARAS <=70B
Olen muuten koskaan juossut paikallisesti
Arkkitehtuuri
> DeepSeek-tyylinen kansanedustajan huomio
> ohut MoE-reititys
> yhteensä 30B parametria, ~4B aktiivisia
> yhteensä 64 asiantuntijaa, joista 5 aktiivista (mukaan lukien jaettu)
Syvyyttä ja tarkoitusta
> suunnilleen GLM-4.5-Air -luokkaa
> mutta viritetty tarkemmin paikallisuuteen
Vertailuarvot
SWE-bench Vahvistettu
> GLM-4.7-Flash: 59.2
> Qwen3-30B-A3B: 22.0
> GPT-OSS-20B: 34.0
> Nemotron-3-Nano-30B-A3B: 38,8
> ei ole sama universumi
τ²-Penkki
> GLM-4.7-Flash: 79.5
> Qwen3-30B-A3B: 49.0
> GPT-OSS-20B: 47,7
> agentti + työkalun käyttö hyväksytty
BrowseComp:
> GLM-4.7-Flash: 42.8
> Qwen3-30B-A3B: 2.3
> GPT-OSS-20B: 28.3
> kyllä, Qwen 30B-A3B:ssä on kaksi pilkkua kolme
> verkkopäättely rikkoo edelleen malleja
AIME 25
> GLM-4.7-Flash: 91.6
> Qwen3-30B-A3B: 85.0
> GPT-OSS-20B: 91.7
> ~4B aktiiviset parametrit muuten
GPQA
> GLM-4.7-Flash: 75.2
> Qwen3-30B-A3B: 73,4
> GPT-OSS-20B: 71,5
> hiljainen, johdonmukainen johto
HLE
> GLM-4.7-Flash: 14.4
> Qwen3-30B-A3B: 9,8
> GPT-OSS-20B: 10.9
> edelleen julma kaikille
> GLM vain sattuu vähemmän
Kontekstiikkunan todellisuustarkistus
> FP16-painot sopivat
> ~27k tokenia RTX PRO 6000:ssa
> tai 4x RTX 3090 (96GB VRAM)
> 4-bittiset AWQ-painot sopivat
> ~70k token-konteksti RTX PRO 6000:ssa
> tai 4x RTX 3090 (96GB VRAM)
> muistutus: KV-välimuisti, ei painot, on todellinen vero
> miksi?
> paksut KV-päät
> ~3x VRAM per token verrattuna GPT-OSS-120B:hen
> vaikka molemmat painot ovat noin ~60GB
Paikalliset kipupisteet
> vLLM / SGLang: päätasolla, vielä vähän kypsymätön
> uusi kaari + ytimet = karkeat reunat
> KV-välimuisti voi purra nopeasti, kuten yllä nähtiin
> riippuen d-tyypistä + ytimen polusta
Mikä oikeasti merkitsee seuraavaksi
> vakaita MLA-ytimiä useammalla GPU:lla
> FP8 / quant-dropit + puhtaat GGUFF:t
> oikeita "päivittäisiä kuljettajia" raportteja
> SWE 59.2 oikeasti tuntuu 59.2:lta oikeissa repoissa?
Jos käytät RTX 5090/4090/3090 -modeja tai
PRO 6000/PRO 5000/PRO 4500/PRO 4000 -pinot
> tämä on sinun kaistasi
> 30B-A3B-luokan paikalliset, todelliset työkalujen käyttöpisteet
> ytimet kypsyvät ja tästä tulee oletusasennus
> nyt odotamme kvantteja, ytimiä ja paikallisten yhteisöjen raportteja
> Osta GPU
> ajaa LLM:ääsi paikallisesti

5
VALTAVA
Paikallisten LLM-vuosi alkaa virallisesti
GLM-4.7-Flash Zhipu AI:lta
> 30B-A3B MoE
> suunniteltu kuluttajanäytönohjaimille
> juoksettavissa kellaristasi
> vahvin 30B-luokan julkaisu, jonka olemme koskaan nähneet
Tämä on PARAS <=70B
Olen muuten koskaan juossut paikallisesti
Arkkitehtuuri
> DeepSeek-tyylinen kansanedustajan huomio
> ohut MoE-reititys
> yhteensä 30B parametria, ~4B aktiivisia
> yhteensä 64 asiantuntijaa, joista 5 aktiivista (mukaan lukien jaettu)
Syvyyttä ja tarkoitusta
> suunnilleen GLM-4.5-Air -luokkaa
> mutta viritetty tarkemmin paikallisuuteen
Vertailuarvot
SWE-bench Vahvistettu
> GLM-4.7-Flash: 59.2
> Qwen3-30B-A3B: 22.0
> GPT-OSS-20B: 34.0
> Nemotron-3-Nano-30B-A3B: 38,8
> ei ole sama universumi
τ²-Penkki
> GLM-4.7-Flash: 79.5
> Qwen3-30B-A3B: 49.0
> GPT-OSS-20B: 47,7
> agentti + työkalun käyttö hyväksytty
BrowseComp:
> GLM-4.7-Flash: 42.8
> Qwen3-30B-A3B: 2.3
> GPT-OSS-20B: 28.3
> kyllä, Qwen 30B-A3B:ssä on kaksi pilkkua kolme
> verkkopäättely rikkoo edelleen malleja
AIME 25
> GLM-4.7-Flash: 91.6
> Qwen3-30B-A3B: 85.0
> GPT-OSS-20B: 91.7
> ~4B aktiiviset parametrit muuten
GPQA
> GLM-4.7-Flash: 75.2
> Qwen3-30B-A3B: 73,4
> GPT-OSS-20B: 71,5
> hiljainen, johdonmukainen johto
HLE
> GLM-4.7-Flash: 14.4
> Qwen3-30B-A3B: 9,8
> GPT-OSS-20B: 10.9
> edelleen julma kaikille
> GLM vain sattuu vähemmän
Kontekstiikkunan todellisuustarkistus
> FP16-painot sopivat
> ~27k tokenia RTX PRO 6000:ssa
> tai 4x RTX 3090 (96GB VRAM)
> 4-bittiset AWQ-painot sopivat
> ~70k token-konteksti RTX PRO 6000:ssa
> tai 4x RTX 3090 (96GB VRAM)
> muistutus: KV-välimuisti, ei painot, on todellinen vero
> miksi?
> paksut KV-päät
> ~3x VRAM per token verrattuna GPT-OSS-120B:hen
> vaikka molemmat painot ovat noin ~60GB
Paikalliset kipupisteet
> vLLM / SGLang: päätasolla, vielä vähän kypsymätön
> uusi kaari + ytimet = karkeat reunat
> KV-välimuisti voi purra nopeasti, kuten yllä nähtiin
> riippuen d-tyypistä + ytimen polusta
Mikä oikeasti merkitsee seuraavaksi
> vakaita MLA-ytimiä useammalla GPU:lla
> FP8 / quant-dropit + puhtaat GGUFF:t
> oikeita "päivittäisiä kuljettajia" raportteja
> SWE 59.2 oikeasti tuntuu 59.2:lta oikeissa repoissa?
Jos käytät RTX 5090/4090/3090 -modeja tai
PRO 6000/PRO 5000/PRO 4500/PRO 4000 -pinot
> tämä on sinun kaistasi
> 30B-A3B-luokan paikalliset, todelliset työkalujen käyttöpisteet
> ytimet kypsyvät ja tästä tulee oletusasennus
> nyt odotamme kvantteja, ytimiä ja paikallisten yhteisöjen raportteja
> Osta GPU
> ajaa LLM:ääsi paikallisesti

26
Johtavat
Rankkaus
Suosikit
