熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Bo Wang
高級副總裁兼生物醫學人工智能@Xaira_Thera負責人;@UofT副教授;首席人工智能官 @UHN;前博士、CS @Stanford;我自己的意見。#AI #healthcare #biology
烏鴉在數百萬年前就發現了抗生素。
當烏鴉生病時,它會做一些看起來瘋狂的事情——它會找到一個蟻群,故意惹惱它們。
螞蟻會攻擊。它們在防禦時到處噴灑蟻酸。
而烏鴉呢?不會逃跑。它展開翅膀,任由螞蟻爬滿全身。
這裡的天才之處在於:蟻酸是一種天然的抗菌和抗真菌化合物。它能殺死破壞羽毛的寄生蟲和微生物。烏鴉基本上是在給自己進行化學浴。
科學家稱這種行為為「蟻浴」。超過200種鳥類會這樣做。首次記錄於1831年,但鳥類已經這樣做了數百萬年。
事情變得更奇怪。
當螞蟻不可用時,一些鳥會抓起點燃的香煙屁股,並用煙霧擦拭自己。它們找到了替代藥物。
我們花了幾個世紀「發現」抗生素。烏鴉這段時間一直在經營自己的藥房。
這讓我感到驚訝的是:進化是原始的藥物發現引擎。數十億年,數萬億次實驗。沒有假設——只有不斷的試錯,直到找到有效的方法。
現在我們正在建立AI系統,為抗體設計做同樣的事情——搜尋廣大的分子空間,預測蛋白質結構,優化結合親和力。大自然花了數百萬年,而AI可以在幾天內探索這些。
5
OpenAI 剛剛在 Cerebras 的晶圓級硬體上部署了 GPT-5.3-Codex-Spark,達到每秒 1,000+ 個標記——大約比 GPU 推理快 10-20 倍。
這不是漸進式的改進;這是一個根本性的架構轉變,首次使實時 AI 協作成為可能。
---
沒有人談論的瓶頸
這是 AI 推理的苦澀秘密:你的 GPU 集群大部分時間都在 *不計算*。
當你在 NVIDIA GPU 上運行大型語言模型時,實際的矩陣乘法是快速的。真正讓你受挫的是:
1. GPU 之間的通信——將一個 175B+ 參數模型分片到 8 個 GPU 上意味著不斷的數據洗牌
2. 記憶體帶寬——HBM 雖然快速,但仍然是離芯片的
3. 批處理開銷——GPU 優化的是吞吐量,而不是延遲,因此它們會等待批量請求
結果是?即使在最先進的 H100 上,你也只能看到前沿模型每秒 50-150 個標記。這對於異步工作負載來說還可以,但對於實時互動來說卻很糟糕。
---
CEREBRAS:一片晶圓統治一切
Cerebras 採取了截然不同的方法:不建造晶片,而是建造晶圓。
WSE-3(晶圓級引擎 3)的規格令人震驚:
WSE-3 NVIDIA B200 比率
晶片大小 46,255 mm² ~800 mm² 57x
晶體管 4 兆 208 億 19x
AI 核心 900,000 18,432 CUDA 49x
片上記憶體 44 GB SRAM 192 GB HBM3e* —
記憶體帶寬 21 PB/s 8 TB/s 2,600x
*B200 使用離芯片的 HBM;WSE-3 的記憶體完全在晶片上。
關鍵見解:通過將所有東西保持在一個巨大的晶片上,你完全消除了互連瓶頸。
沒有 PCIe。沒有 NVLink。沒有 InfiniBand。數據就這樣... 移動。
---
為什麼這對 CODEX 重要
OpenAI 的公告揭示了他們的策略:
"Codex-Spark 針對互動工作進行了優化,在這裡延遲和智能一樣重要。你可以與模型實時協作,打斷或重新引導它的工作。"
這是真正的範式轉變。之前的 AI 編碼助手運作在請求-響應模型中:
1. 你寫一個提示
2. 你等待 10-30 秒
3. 你得到一個響應
4. 你評估並重複
在每秒 1,000 個標記的情況下,互動模型轉變為持續協作:
1. 你開始輸入
2. 模型的響應速度與你閱讀的速度一樣快
3. 你實時打斷、重新引導、精煉
4. 反饋循環緊縮到人類對話的速度
這是電子郵件和電話通話之間的區別。
---
技術堆棧
OpenAI 的博客揭示了他們不僅僅是插入 Cerebras 硬體——他們重寫了整個推理管道:
• 客戶端/服務器往返開銷減少 80%
• 每個標記的開銷減少 30%
• 首個標記的時間減少 50%
• 持久的 WebSocket 連接(與 HTTP 請求/響應相比)
Cerebras 硬體提供了原始速度;OpenAI 的基礎設施工作確保這種速度實際上能夠到達用戶。
---
100 億美元的賭注
一月的合作夥伴關係公告:OpenAI 將在 2028 年之前購買 750MW 的 Cerebras 計算能力。以數據中心經濟學來看,這大約是 100 億美元以上的基礎設施承諾。
這不是一個試點。這是一個戰略賭注,認為以延遲為首的推理將定義下一代 AI 應用。
---
這解鎖了什麼
在這種規模下的實時推理使得以前不切實際的 AI 互動類別成為可能:
1. 真正的配對編程——AI 能夠跟上你的思維
2. 多代理協調——子代理在幾秒鐘內完成任務,而不是幾分鐘
3. 語音優先編碼——延遲足夠低以符合自然語音節奏
4. 中斷驅動的工作流程——在生成過程中隨時改變主意而不受懲罰
---
更大的圖景
GPU 將在訓練和高吞吐量批量推理中保持主導地位。GPT-Codex-Spark 則開辟了不同的利基市場:對延遲敏感的、實時的、互動的 AI。



OpenAI2月13日 02:07
GPT-5.3-Codex-Spark 現在已進入研究預覽階段。
你可以更快地構建事物。
7
熱門
排行
收藏
