Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI vừa triển khai GPT-5.3-Codex-Spark trên phần cứng wafer-scale của Cerebras, đạt được hơn 1,000 token/giây — nhanh hơn khoảng 10-20 lần so với suy diễn GPU.
Điều này không phải là cải tiến từng bước; đó là một sự thay đổi kiến trúc cơ bản cho phép hợp tác AI theo thời gian thực lần đầu tiên.
---
NÚT THẮT MÀ KHÔNG AI NÓI ĐẾN
Đây là bí mật cay đắng của suy diễn AI: cụm GPU của bạn dành phần lớn thời gian *không tính toán*.
Khi bạn chạy một mô hình ngôn ngữ lớn trên GPU NVIDIA, các phép nhân ma trận thực tế rất nhanh. Điều giết chết bạn là:
1. Giao tiếp giữa các GPU — Chia một mô hình có hơn 175B tham số trên 8 GPU có nghĩa là liên tục xáo trộn dữ liệu
2. Băng thông bộ nhớ — HBM nhanh, nhưng vẫn là ngoài chip
3. Chi phí batching — GPU tối ưu cho thông lượng, không phải độ trễ, vì vậy chúng chờ để nhóm các yêu cầu lại
Kết quả? Ngay cả trên các H100 tiên tiến, bạn đang nhìn vào 50-150 token/giây cho các mô hình tiên phong. Điều đó thì ổn cho các khối lượng công việc không đồng bộ. Nó thật tệ cho tương tác theo thời gian thực.
---
CEREBRAS: MỘT WAFER ĐỂ QUẢN LÝ TẤT CẢ
Cerebras đã có một cách tiếp cận hoàn toàn khác: không xây dựng chip, mà xây dựng wafer.
Thông số kỹ thuật WSE-3 (Wafer Scale Engine 3) thật đáng kinh ngạc:
WSE-3 NVIDIA B200 Tỷ lệ
Kích thước die 46,255 mm² ~800 mm² 57x
Transistor 4 nghìn tỷ 208 tỷ 19x
Cores AI 900,000 18,432 CUDA 49x...


Hàng đầu
Thứ hạng
Yêu thích
