Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ahmad
nhà nghiên cứu ai & kỹ sư phần mềm, trong nhiệm vụ xây dựng cụm GPU DGX B200
NVFP4 hiện đã có trên HF*
Dung lượng khoảng ~20.4GB
Hãy tưởng tượng chạy điều này trên một RTX 5090 (32GB VRAM)
với gần như không mất mát về hiệu suất hoặc độ chính xác so với 62.4GB
*HF: GadflyII/GLM-4.7-Flash-NVFP4


Ahmad11 giờ trước
KHỔNG LỒ
Năm của các LLM Địa phương chính thức bắt đầu
với GLM-4.7-Flash của Zhipu AI
> 30B-A3B MoE
> được xây dựng cho GPU tiêu dùng
> có thể chạy từ tầng hầm của bạn
> phát hành mạnh nhất trong phân khúc 30B mà chúng tôi từng thấy
Đây là TỐT NHẤT <=70B
Tôi từng chạy cục bộ BTW
Kiến trúc
> Chú ý MLA kiểu DeepSeek
> định tuyến MoE mỏng
> tổng cộng 30B tham số, ~4B hoạt động
> tổng cộng 64 chuyên gia, 5 hoạt động (bao gồm cả chia sẻ)
Độ sâu & ý định
> khoảng lớp GLM-4.5-Air
> nhưng được tinh chỉnh mạnh hơn cho tính địa phương
Thử nghiệm
SWE-bench Đã xác minh
> GLM-4.7-Flash: 59.2
> Qwen3-30B-A3B: 22.0
> GPT-OSS-20B: 34.0
> Nemotron-3-Nano-30B-A3B: 38.8
> không cùng một vũ trụ
τ²-Bench
> GLM-4.7-Flash: 79.5
> Qwen3-30B-A3B: 49.0
> GPT-OSS-20B: 47.7
> agentic + sử dụng công cụ đã được xóa
BrowseComp:
> GLM-4.7-Flash: 42.8
> Qwen3-30B-A3B: 2.3
> GPT-OSS-20B: 28.3
> vâng, Qwen 30B-A3B có hai điểm ba
> lý luận web vẫn phá vỡ các mô hình
AIME 25
> GLM-4.7-Flash: 91.6
> Qwen3-30B-A3B: 85.0
> GPT-OSS-20B: 91.7
> ~4B tham số hoạt động btw
GPQA
> GLM-4.7-Flash: 75.2
> Qwen3-30B-A3B: 73.4
> GPT-OSS-20B: 71.5
> dẫn đầu yên tĩnh, nhất quán
HLE
> GLM-4.7-Flash: 14.4
> Qwen3-30B-A3B: 9.8
> GPT-OSS-20B: 10.9
> vẫn tàn khốc cho mọi người
> GLM chỉ đau ít hơn
Kiểm tra thực tế cửa sổ ngữ cảnh
> trọng số FP16 phù hợp với
> ~27k token trên RTX PRO 6000
> hoặc 4x RTX 3090s (96GB VRAM)
> trọng số AWQ 4-bit phù hợp với
> ~70k token ngữ cảnh trên RTX PRO 6000
> hoặc 4x RTX 3090s (96GB VRAM)
> nhắc nhở: bộ nhớ KV, không phải trọng số, là thuế thực sự
> tại sao?
> đầu KV dày
> ~3x VRAM mỗi token so với GPT-OSS-120B
> mặc dù cả hai đều nằm quanh ~60GB trọng số
Điểm đau địa phương
> vLLM / SGLang: trên chính, vẫn còn hơi chưa trưởng thành
> kiến trúc mới + kernel = cạnh thô
> bộ nhớ KV có thể cắn nhanh như đã thấy ở trên
> tùy thuộc vào dtype + đường dẫn kernel
Những gì thực sự quan trọng tiếp theo
> kernel MLA ổn định trên nhiều GPU hơn
> giảm FP8 / định lượng + GGUF sạch
> báo cáo "người lái xe hàng ngày" thực sự
> liệu SWE 59.2 có thực sự cảm thấy như 59.2 trong các kho thực tế không?
Nếu bạn đang sử dụng RTX 5090s/4090s/3090s hoặc
các cụm PRO 6000/PRO 5000/PRO 4500/PRO 4000
> đây là làn đường của bạn
> phân khúc 30B-A3B, cục bộ, điểm số sử dụng công cụ thực sự
> kernel trưởng thành và điều này trở thành cài đặt mặc định
> bây giờ chúng ta chờ đợi các định lượng, kernel và báo cáo từ những người trong cộng đồng địa phương
> Mua một GPU
> chạy các LLM của bạn cục bộ

8
KHỔNG LỒ
Năm của các LLM Địa phương chính thức bắt đầu
với GLM-4.7-Flash của Zhipu AI
> 30B-A3B MoE
> được xây dựng cho GPU tiêu dùng
> có thể chạy từ tầng hầm của bạn
> phát hành mạnh nhất trong phân khúc 30B mà chúng tôi từng thấy
Đây là TỐT NHẤT <=70B
Tôi từng chạy cục bộ BTW
Kiến trúc
> Chú ý MLA kiểu DeepSeek
> định tuyến MoE mỏng
> tổng cộng 30B tham số, ~4B hoạt động
> tổng cộng 64 chuyên gia, 5 hoạt động (bao gồm cả chia sẻ)
Độ sâu & ý định
> khoảng lớp GLM-4.5-Air
> nhưng được tinh chỉnh mạnh hơn cho tính địa phương
Thử nghiệm
SWE-bench Đã xác minh
> GLM-4.7-Flash: 59.2
> Qwen3-30B-A3B: 22.0
> GPT-OSS-20B: 34.0
> Nemotron-3-Nano-30B-A3B: 38.8
> không cùng một vũ trụ
τ²-Bench
> GLM-4.7-Flash: 79.5
> Qwen3-30B-A3B: 49.0
> GPT-OSS-20B: 47.7
> agentic + sử dụng công cụ đã được xóa
BrowseComp:
> GLM-4.7-Flash: 42.8
> Qwen3-30B-A3B: 2.3
> GPT-OSS-20B: 28.3
> vâng, Qwen 30B-A3B có hai điểm ba
> lý luận web vẫn phá vỡ các mô hình
AIME 25
> GLM-4.7-Flash: 91.6
> Qwen3-30B-A3B: 85.0
> GPT-OSS-20B: 91.7
> ~4B tham số hoạt động btw
GPQA
> GLM-4.7-Flash: 75.2
> Qwen3-30B-A3B: 73.4
> GPT-OSS-20B: 71.5
> dẫn đầu yên tĩnh, nhất quán
HLE
> GLM-4.7-Flash: 14.4
> Qwen3-30B-A3B: 9.8
> GPT-OSS-20B: 10.9
> vẫn tàn khốc cho mọi người
> GLM chỉ đau ít hơn
Kiểm tra thực tế cửa sổ ngữ cảnh
> trọng số FP16 phù hợp với
> ~27k token trên RTX PRO 6000
> hoặc 4x RTX 3090s (96GB VRAM)
> trọng số AWQ 4-bit phù hợp với
> ~70k token ngữ cảnh trên RTX PRO 6000
> hoặc 4x RTX 3090s (96GB VRAM)
> nhắc nhở: bộ nhớ KV, không phải trọng số, là thuế thực sự
> tại sao?
> đầu KV dày
> ~3x VRAM mỗi token so với GPT-OSS-120B
> mặc dù cả hai đều nằm quanh ~60GB trọng số
Điểm đau địa phương
> vLLM / SGLang: trên chính, vẫn còn hơi chưa trưởng thành
> kiến trúc mới + kernel = cạnh thô
> bộ nhớ KV có thể cắn nhanh như đã thấy ở trên
> tùy thuộc vào dtype + đường dẫn kernel
Những gì thực sự quan trọng tiếp theo
> kernel MLA ổn định trên nhiều GPU hơn
> giảm FP8 / định lượng + GGUF sạch
> báo cáo "người lái xe hàng ngày" thực sự
> liệu SWE 59.2 có thực sự cảm thấy như 59.2 trong các kho thực tế không?
Nếu bạn đang sử dụng RTX 5090s/4090s/3090s hoặc
các cụm PRO 6000/PRO 5000/PRO 4500/PRO 4000
> đây là làn đường của bạn
> phân khúc 30B-A3B, cục bộ, điểm số sử dụng công cụ thực sự
> kernel trưởng thành và điều này trở thành cài đặt mặc định
> bây giờ chúng ta chờ đợi các định lượng, kernel và báo cáo từ những người trong cộng đồng địa phương
> Mua một GPU
> chạy các LLM của bạn cục bộ

33
Hàng đầu
Thứ hạng
Yêu thích
