Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ahmad
Chercheur en IA et ingénieur logiciel, en mission pour construire un cluster GPU DGX B200
NVFP4 est maintenant disponible sur HF*
Les poids sont d'environ 20,4 Go
Imaginez faire fonctionner cela sur un RTX 5090 (32 Go de VRAM)
avec presque aucune perte de performance ou de précision par rapport à 62,4 Go
*HF : GadflyII/GLM-4.7-Flash-NVFP4


Ahmadil y a 11 heures
MASSIF
L'année des LLMs Locaux commence officiellement
avec GLM-4.7-Flash de Zhipu AI
> 30B-A3B MoE
> conçu pour les GPU grand public
> exécutable depuis votre sous-sol
> la plus forte sortie de classe 30B que nous ayons jamais vue
C'est LE MEILLEUR <=70B
que j'ai jamais exécuté localement, au fait
Architecture
> Attention MLA de style DeepSeek
> routage MoE mince
> 30B de paramètres au total, ~4B actifs
> 64 experts au total, 5 actifs (incl. partagés)
Profondeur & intention
> à peu près de la classe GLM-4.5-Air
> mais réglé plus durement pour la localité
Benchmarks
SWE-bench Vérifié
> GLM-4.7-Flash : 59.2
> Qwen3-30B-A3B : 22.0
> GPT-OSS-20B : 34.0
> Nemotron-3-Nano-30B-A3B : 38.8
> pas le même univers
τ²-Bench
> GLM-4.7-Flash : 79.5
> Qwen3-30B-A3B : 49.0
> GPT-OSS-20B : 47.7
> agentique + utilisation d'outils validée
BrowseComp :
> GLM-4.7-Flash : 42.8
> Qwen3-30B-A3B : 2.3
> GPT-OSS-20B : 28.3
> oui, Qwen 30B-A3B a deux point trois
> le raisonnement web casse toujours les modèles
AIME 25
> GLM-4.7-Flash : 91.6
> Qwen3-30B-A3B : 85.0
> GPT-OSS-20B : 91.7
> ~4B de paramètres actifs au fait
GPQA
> GLM-4.7-Flash : 75.2
> Qwen3-30B-A3B : 73.4
> GPT-OSS-20B : 71.5
> avance silencieuse et constante
HLE
> GLM-4.7-Flash : 14.4
> Qwen3-30B-A3B : 9.8
> GPT-OSS-20B : 10.9
> toujours brutal pour tout le monde
> GLM fait juste moins mal
Vérification de la réalité de la fenêtre de contexte
> poids FP16 s'adaptent avec
> ~27k tokens sur un RTX PRO 6000
> ou 4x RTX 3090s (96GB VRAM)
> poids AWQ 4 bits s'adaptent avec
> ~70k tokens de contexte sur un RTX PRO 6000
> ou 4x RTX 3090s (96GB VRAM)
> rappel : le cache KV, pas les poids, est le véritable impôt
> pourquoi ?
> têtes KV épaisses
> ~3x VRAM par token contre GPT-OSS-120B
> même si les deux sont autour de ~60GB de poids
Points de douleur locaux
> vLLM / SGLang : sur principal, encore un peu immature
> nouvelle architecture + noyaux = bords rugueux
> le cache KV peut mordre rapidement comme vu ci-dessus
> selon dtype + chemin du noyau
Ce qui compte vraiment ensuite
> noyaux MLA stables sur plus de GPU
> baisses FP8 / quant + GGUFs propres
> rapports de "conducteur quotidien" réels
> est-ce que SWE 59.2 ressemble vraiment à 59.2 dans de vrais dépôts ?
Si vous êtes sur RTX 5090s/4090s/3090s ou
PRO 6000/PRO 5000/PRO 4500/PRO 4000
> c'est votre voie
> classe 30B-A3B, locale, scores d'utilisation d'outils réels
> les noyaux mûrissent et cela devient une installation par défaut
> maintenant nous attendons des quant, des noyaux et des rapports de la part des membres de la communauté locale
> Achetez un GPU
> exécutez vos LLMs localement

9
MASSIF
L'année des LLMs Locaux commence officiellement
avec GLM-4.7-Flash de Zhipu AI
> 30B-A3B MoE
> conçu pour les GPU grand public
> exécutable depuis votre sous-sol
> la plus forte sortie de classe 30B que nous ayons jamais vue
C'est LE MEILLEUR <=70B
que j'ai jamais exécuté localement, au fait
Architecture
> Attention MLA de style DeepSeek
> routage MoE mince
> 30B de paramètres au total, ~4B actifs
> 64 experts au total, 5 actifs (incl. partagés)
Profondeur & intention
> à peu près de la classe GLM-4.5-Air
> mais réglé plus durement pour la localité
Benchmarks
SWE-bench Vérifié
> GLM-4.7-Flash : 59.2
> Qwen3-30B-A3B : 22.0
> GPT-OSS-20B : 34.0
> Nemotron-3-Nano-30B-A3B : 38.8
> pas le même univers
τ²-Bench
> GLM-4.7-Flash : 79.5
> Qwen3-30B-A3B : 49.0
> GPT-OSS-20B : 47.7
> agentique + utilisation d'outils validée
BrowseComp :
> GLM-4.7-Flash : 42.8
> Qwen3-30B-A3B : 2.3
> GPT-OSS-20B : 28.3
> oui, Qwen 30B-A3B a deux point trois
> le raisonnement web casse toujours les modèles
AIME 25
> GLM-4.7-Flash : 91.6
> Qwen3-30B-A3B : 85.0
> GPT-OSS-20B : 91.7
> ~4B de paramètres actifs au fait
GPQA
> GLM-4.7-Flash : 75.2
> Qwen3-30B-A3B : 73.4
> GPT-OSS-20B : 71.5
> avance silencieuse et constante
HLE
> GLM-4.7-Flash : 14.4
> Qwen3-30B-A3B : 9.8
> GPT-OSS-20B : 10.9
> toujours brutal pour tout le monde
> GLM fait juste moins mal
Vérification de la réalité de la fenêtre de contexte
> poids FP16 s'adaptent avec
> ~27k tokens sur un RTX PRO 6000
> ou 4x RTX 3090s (96GB VRAM)
> poids AWQ 4 bits s'adaptent avec
> ~70k tokens de contexte sur un RTX PRO 6000
> ou 4x RTX 3090s (96GB VRAM)
> rappel : le cache KV, pas les poids, est le véritable impôt
> pourquoi ?
> têtes KV épaisses
> ~3x VRAM par token contre GPT-OSS-120B
> même si les deux sont autour de ~60GB de poids
Points de douleur locaux
> vLLM / SGLang : sur principal, encore un peu immature
> nouvelle architecture + noyaux = bords rugueux
> le cache KV peut mordre rapidement comme vu ci-dessus
> selon dtype + chemin du noyau
Ce qui compte vraiment ensuite
> noyaux MLA stables sur plus de GPU
> baisses FP8 / quant + GGUFs propres
> rapports de "conducteur quotidien" réels
> est-ce que SWE 59.2 ressemble vraiment à 59.2 dans de vrais dépôts ?
Si vous êtes sur RTX 5090s/4090s/3090s ou
PRO 6000/PRO 5000/PRO 4500/PRO 4000
> c'est votre voie
> classe 30B-A3B, locale, scores d'utilisation d'outils réels
> les noyaux mûrissent et cela devient une installation par défaut
> maintenant nous attendons des quant, des noyaux et des rapports de la part des membres de la communauté locale
> Achetez un GPU
> exécutez vos LLMs localement

36
Meilleurs
Classement
Favoris
