Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ahmad
AI-forskare och mjukvaruingenjör, på uppdrag att bygga ett DGX B200 GPU-kluster
STOR KV-CACHE-MINNESFIX
Fixa KV-cachen i GLM-4.7-Flash
med denna enkellinjesförändring i vLLM
200K kontext kräver nu ~10GB VRAM
istället för ~180GB
NVFP4 är nu på HF*
- ~20,4GB vikter
- Nästan ingen förlust jämfört med 62,4GB BF16
Denna SOTA-modell körs nu på
en enda RTX 5090 (32GB VRAM)
> med hela 200K-kontexten
> VRAM kvar
*HF: GadflyII/GLM-4.7-Flash-NVFP4


Ahmad20 jan. 04:26
MASSIV
Året för lokala LLM:er börjar officiellt
med GLM-4.7-Flash av Zhipu AI
> 30B-A3B MoE
> byggda för konsument-GPU:er
> löpbara från din källare
> starkaste 30B-klass utgåva vi någonsin sett
Detta är DEN BÄSTA <=70B
Jag har förresten kört lokalt
Arkitektur
> DeepSeek-liknande MLA-uppmärksamhet
> smal MoE-rutting
> totalt 30 miljarder parametrar, ~4 miljarder aktiva
> totalt 64 experter, 5 aktiva (inkl. delade)
Djup och avsikt
> ungefär GLM-4.5-Air-klassen
> men stämt hårdare för lokalitet
Riktmärken
SWE-bench verifierad
> GLM-4.7-Flash: 59.2
> Qwen3-30B-A3B: 22,0
> GPT-OSS-20B: 34.0
> Nemotron-3-Nano-30B-A3B: 38,8
> inte samma universum
τ²-Bench
> GLM-4.7-Flash: 79.5
> Qwen3-30B-A3B: 49,0
> GPT-OSS-20B: 47,7
> agentisk + verktygsanvändning rensad
BrowseComp:
> GLM-4.7-Flash: 42.8
> Qwen3-30B-A3B: 2,3
> GPT-OSS-20B: 28,3
> ja, Qwen 30B-A3B har två komma tre
> webbresonemang bryter fortfarande modeller
MÅL 25
> GLM-4.7-Flash: 91.6
> Qwen3-30B-A3B: 85,0
> GPT-OSS-20B: 91,7
> ~4 miljarder aktiva parametrar förresten
GPQA
> GLM-4.7-Flash: 75.2
> Qwen3-30B-A3B: 73,4
> GPT-OSS-20B: 71,5
> tyst, konsekvent ledning
HLE
> GLM-4.7-Flash: 14.4
> Qwen3-30B-A3B: 9,8
> GPT-OSS-20B: 10,9
> fortfarande brutalt för alla
> GLM gör bara mindre ont
Kontextfönster verklighetskontroll
> FP16-vikter passar med
> ~27 000 tokens på en RTX PRO 6000
> eller 4x RTX 3090 (96GB VRAM)
> 4-bitars AWQ-vikter passar med
> ~70k token-kontext på en RTX PRO 6000
> eller 4x RTX 3090 (96GB VRAM)
> påminnelse: KV-cache, inte vikter, är den verkliga skatten
> varför?
> tjocka KV-huvuden
> ~3x VRAM per token jämfört med GPT-OSS-120B
> även om båda ligger på cirka ~60GB vikter
Lokala smärtpunkter
> vLLM / SGLang: på main, fortfarande lite omoget
> ny båge + kärnor = grova kanter
> KV-cache kan bita snabbt som ovan.
> beroende av dtyp + kärnans sökväg
Vad som egentligen spelar roll härnäst
> stabila MLA-kärnor över fler GPU:er
> FP8 / quant drops + rena GGUF:er
> riktiga "dagliga bil"-rapporter
> känns SWE 59.2 verkligen som 59.2 i riktiga repos?
Om du använder RTX 5090/4090s/3090s eller
PRO 6000/PRO 5000/PRO 4500/PRO 4000 stackar
> det här är din fil.
> 30B-A3B-klass, lokala, verkliga verktygsanvändningspoäng
> kärnor mognar och detta blir en standardinstallation
> väntar vi nu på kvantdata, kärnor och rapporter från lokala communityn
> Köp ett grafikkort
> kör dina LLM:er lokalt

Topp
Rankning
Favoriter

