Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ahmad
Дослідник штучного інтелекту та інженер-програміст із місією створити кластер графічних процесорів DGX B200
ОСНОВНЕ ВИПРАВЛЕННЯ ПАМ'ЯТІ KV-CACHE
Виправте KV-кеш GLM-4.7-Flash
з цією однорядковою зміною у vLLM
Контекст 200K тепер займає ~10GB VRAM
замість ~180GB
NVFP4 тепер на HF*
- ~20,4 ГБ ваги
- Майже нульові втрати проти 62,4GB BF16
Ця модель SOTA тепер працює на
одна RTX 5090 (32GB VRAM)
> з повним контекстом 200K
> VRAM, що залишився
*HF: GadflyII/GLM-4.7-Flash-NVFP4


Ahmad20 січ., 04:26
ВЕЛИЧЕЗНИЙ
Рік місцевих LLM офіційно розпочинається
з GLM-4.7-Flash від Zhipu AI
> 30B-A3B MoE
> створений для споживчих GPU
> можна керувати з підвалу
> найсильніший реліз класу 30B, який ми коли-небудь бачили
Це НАЙКРАЩЕ <=70B
До речі, я коли-небудь бігав локально
Архітектура
> Увага MLA у стилі DeepSeek
> вузьке маршрутизація MoE
> 30B всього параметрів, ~4B активних
> загалом 64 експерти, 5 активних (включаючи спільне)
Глибина та намір
> приблизно класу GLM-4.5-Air
>, але налаштував більше на локальність
Бенчмарки
SWE-bench Підтверджено
> GLM-4.7-Flash: 59.2
> Qwen3-30B-A3B: 22.0
> GPT-OSS-20B: 34.0
> Немотрон-3-Нано-30B-A3B: 38,8
> не той самий всесвіт
τ²-Лавка
> GLM-4.7-Flash: 79.5
> Qwen3-30B-A3B: 49.0
> GPT-OSS-20B: 47.7
> Агент + використання інструментів дозволено
BrowseComp:
> GLM-4.7-Спалах: 42.8
> Qwen3-30B-A3B: 2.3
> GPT-OSS-20B: 28.3
> так, Qwen 30B-A3B має два цілих три
> веб-логіка все одно ламає моделі
AIME 25
> GLM-4.7-Flash: 91.6
> Qwen3-30B-A3B: 85.0
> GPT-OSS-20B: 91.7
> ~4B активні параметри, до речі.
GPQA
> GLM-4.7-Flash: 75.2
> Qwen3-30B-A3B: 73.4
> GPT-OSS-20B: 71.5
> тихий, стабільний лідер
HLE
> GLM-4.7-Спалах: 14.4
> Qwen3-30B-A3B: 9.8
> GPT-OSS-20B: 10.9
> все ще жорстокий для всіх
> GLM просто менше болить
Перевірка реальності у контекстному вікні
> Ваги FP16 підходять для
> ~27 тисяч токенів на RTX PRO 6000
> або 4x RTX 3090 (96GB VRAM)
> 4-бітні ваги AWQ підходять для
> контекст токена ~70k на RTX PRO 6000
> або 4x RTX 3090 (96GB VRAM)
> нагадування: KV-кеш, а не ваги, є справжнім податком
> чому?
> головки KV thiccc
> ~3x VRAM на токен проти GPT-OSS-120B
> хоча обидва мають приблизно ~60GB ваги
Локальні проблеми
> vLLM / SGLang: на основному режимі, ще трохи незрілий
> нова арка + ядра = шорсткі краї
> KV кеш може швидко працювати, як показано вище
> залежно від dtype + шляху ядра
Що насправді має значення далі
> стабільні MLA-ядра на більшій кількості GPU
> FP8 / кількісні дропи + чисті GGUF
> справжні «щоденні водійські» звіти
> SWE 59.2 справді відчувається як 59.2 у реальних репозиторіях?
Якщо у вас RTX 5090s/4090s/3090s або
PRO 6000/PRO 5000/PRO 4500/PRO 4000 стеки
> це твоя смуга
> 30B-A3B класу, місцеві, реальні результати використання інструментів
> ядра дозрівають, і це стає стандартною установкою
> тепер ми чекаємо на кількісні аналізи, ядра та звіти від місцевих представників громади
> Купити відеокарту
> запускайте свої LLM локально

3
Найкращі
Рейтинг
Вибране

