OpenAI vừa triển khai GPT-5.3-Codex-Spark trên phần cứng wafer-scale của Cerebras, đạt được hơn 1,000 token/giây — nhanh hơn khoảng 10-20 lần so với suy diễn GPU. Điều này không phải là cải tiến từng bước; đó là một sự thay đổi kiến trúc cơ bản cho phép hợp tác AI theo thời gian thực lần đầu tiên. --- NÚT THẮT MÀ KHÔNG AI NÓI ĐẾN Đây là bí mật cay đắng của suy diễn AI: cụm GPU của bạn dành phần lớn thời gian *không tính toán*. Khi bạn chạy một mô hình ngôn ngữ lớn trên GPU NVIDIA, các phép nhân ma trận thực tế rất nhanh. Điều giết chết bạn là: 1. Giao tiếp giữa các GPU — Chia một mô hình có hơn 175B tham số trên 8 GPU có nghĩa là liên tục xáo trộn dữ liệu 2. Băng thông bộ nhớ — HBM nhanh, nhưng vẫn là ngoài chip 3. Chi phí batching — GPU tối ưu cho thông lượng, không phải độ trễ, vì vậy chúng chờ để nhóm các yêu cầu lại Kết quả? Ngay cả trên các H100 tiên tiến, bạn đang nhìn vào 50-150 token/giây cho các mô hình tiên phong. Điều đó thì ổn cho các khối lượng công việc không đồng bộ. Nó thật tệ cho tương tác theo thời gian thực. --- CEREBRAS: MỘT WAFER ĐỂ QUẢN LÝ TẤT CẢ Cerebras đã có một cách tiếp cận hoàn toàn khác: không xây dựng chip, mà xây dựng wafer. Thông số kỹ thuật WSE-3 (Wafer Scale Engine 3) thật đáng kinh ngạc:                     WSE-3           NVIDIA B200      Tỷ lệ Kích thước die      46,255 mm²      ~800 mm²         57x Transistor         4 nghìn tỷ      208 tỷ      19x Cores AI            900,000         18,432 CUDA      49x...