Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ahmad
Investigador de IA e ingeniero de software, en una misión para construir un clúster de GPU DGX B200
El CFO de OpenAI dice que podrían llevarse un porcentaje de los ingresos de los clientes
por las invenciones construidas con modelos a los que OpenAI les dio acceso
(que esos clientes ya pagaron, por cierto)
Imagina un mundo donde solo estas personas tuvieran modelos de IA
Eso habría sido un infierno

9
CORRECCIÓN IMPORTANTE DE MEMORIA KV-CACHE
Corrige el KV-cache de GLM-4.7-Flash
con este cambio de una sola línea en vLLM
200K de contexto ahora ocupa ~10GB de VRAM
en lugar de ~180GB
NVFP4 ahora está en HF*
- ~20.4GB de pesos
- Casi cero pérdida frente a 62.4GB BF16
Este modelo SOTA ahora funciona en
una sola RTX 5090 (32GB VRAM)
> con el contexto completo de 200K
> VRAM aún disponible
*HF: GadflyII/GLM-4.7-Flash-NVFP4


Ahmad20 ene, 04:26
MASIVO
El año de los LLMs locales comienza oficialmente
con GLM-4.7-Flash de Zhipu AI
> 30B-A3B MoE
> construido para GPUs de consumo
> ejecutable desde tu sótano
> la versión más potente de 30B que hemos visto
Este es EL MEJOR <=70B
que he ejecutado localmente, por cierto
Arquitectura
> Atención MLA estilo DeepSeek
> enrutamiento MoE delgado
> 30B de parámetros totales, ~4B activos
> 64 expertos en total, 5 activos (incl. compartidos)
Profundidad e intención
> aproximadamente de la clase GLM-4.5-Air
> pero ajustado más para la localidad
Puntos de referencia
SWE-bench Verificado
> GLM-4.7-Flash: 59.2
> Qwen3-30B-A3B: 22.0
> GPT-OSS-20B: 34.0
> Nemotron-3-Nano-30B-A3B: 38.8
> no es el mismo universo
τ²-Bench
> GLM-4.7-Flash: 79.5
> Qwen3-30B-A3B: 49.0
> GPT-OSS-20B: 47.7
> uso de herramientas + agente superado
BrowseComp:
> GLM-4.7-Flash: 42.8
> Qwen3-30B-A3B: 2.3
> GPT-OSS-20B: 28.3
> sí, Qwen 30B-A3B tiene dos punto tres
> el razonamiento web aún rompe modelos
AIME 25
> GLM-4.7-Flash: 91.6
> Qwen3-30B-A3B: 85.0
> GPT-OSS-20B: 91.7
> ~4B de parámetros activos, por cierto
GPQA
> GLM-4.7-Flash: 75.2
> Qwen3-30B-A3B: 73.4
> GPT-OSS-20B: 71.5
> ventaja silenciosa y consistente
HLE
> GLM-4.7-Flash: 14.4
> Qwen3-30B-A3B: 9.8
> GPT-OSS-20B: 10.9
> sigue siendo brutal para todos
> GLM simplemente duele menos
Chequeo de realidad de la ventana de contexto
> pesos FP16 caben con
> ~27k tokens en un RTX PRO 6000
> o 4x RTX 3090s (96GB VRAM)
> pesos AWQ de 4 bits caben con
> ~70k tokens de contexto en un RTX PRO 6000
> o 4x RTX 3090s (96GB VRAM)
> recordatorio: la caché KV, no los pesos, es el verdadero impuesto
> ¿por qué?
> cabezales KV gruesos
> ~3x VRAM por token frente a GPT-OSS-120B
> aunque ambos están alrededor de ~60GB de pesos
Puntos de dolor locales
> vLLM / SGLang: en principal, aún un poco inmaduro
> nueva arquitectura + núcleos = bordes ásperos
> la caché KV puede morder rápido como se vio arriba
> dependiendo del tipo de dato + ruta del núcleo
Lo que realmente importa a continuación
> núcleos MLA estables en más GPUs
> caídas FP8 / cuantización + GGUFs limpias
> informes de "conductor diario" reales
> ¿realmente se siente como 59.2 en repos reales?
Si estás en RTX 5090s/4090s/3090s o
pilas PRO 6000/PRO 5000/PRO 4500/PRO 4000
> este es tu camino
> puntuaciones de uso de herramientas locales de clase 30B-A3B
> los núcleos maduran y esto se convierte en una instalación predeterminada
> ahora esperamos por cuantizaciones, núcleos e informes de la comunidad local
> Compra una GPU
> ejecuta tus LLMs localmente

87
Parte superior
Clasificación
Favoritos
