OpenAI 剛剛在 Cerebras 的晶圓級硬體上部署了 GPT-5.3-Codex-Spark,達到每秒 1,000+ 個標記——大約比 GPU 推理快 10-20 倍。 這不是漸進式的改進;這是一個根本性的架構轉變,首次使實時 AI 協作成為可能。 --- 沒有人談論的瓶頸 這是 AI 推理的苦澀秘密:你的 GPU 集群大部分時間都在 *不計算*。 當你在 NVIDIA GPU 上運行大型語言模型時,實際的矩陣乘法是快速的。真正讓你受挫的是: 1. GPU 之間的通信——將一個 175B+ 參數模型分片到 8 個 GPU 上意味著不斷的數據洗牌 2. 記憶體帶寬——HBM 雖然快速,但仍然是離芯片的 3. 批處理開銷——GPU 優化的是吞吐量,而不是延遲,因此它們會等待批量請求 結果是?即使在最先進的 H100 上,你也只能看到前沿模型每秒 50-150 個標記。這對於異步工作負載來說還可以,但對於實時互動來說卻很糟糕。 --- CEREBRAS:一片晶圓統治一切 Cerebras 採取了截然不同的方法:不建造晶片,而是建造晶圓。 WSE-3(晶圓級引擎 3)的規格令人震驚:                     WSE-3           NVIDIA B200      比率 晶片大小            46,255 mm²      ~800 mm²         57x 晶體管             4 兆      208 億      19x AI 核心            900,000         18,432 CUDA      49x...