熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
DeepSeek R2 延遲是因為轉向華為 Ascend 晶片進行訓練?
DS + HW 工程師在 CUDA 到 CANN 的遷移上合作,從長遠來看對 HW 是積極的。R2 的發布原本預計在去年五月。自那時起,至少有一個 SOTA 中國模型已經發布,該模型完全在 HW 硬體上訓練。
FT:中國人工智慧公司 DeepSeek 在未能使用華為的晶片進行訓練後,推遲了新模型的發布,這突顯了北京在替代美國技術方面的局限性。
據三位知情人士透露,DeepSeek 在一月份發布 R1 模型後,受到當局的鼓勵,採用華為的 Ascend 處理器,而不是使用 Nvidia 的系統。
但這家中國初創公司在使用 Ascend 晶片進行 R2 訓練過程中遇到了持續的技術問題,迫使其使用 Nvidia 晶片進行訓練,而使用華為的晶片進行推理,知情人士表示。
... 據兩位知情人士透露,華為派遣了一支工程師團隊到 DeepSeek 辦公室,幫助公司使用其 AI 晶片開發 R2 模型。然而,儘管現場有團隊,DeepSeek 仍未能在 Ascend 晶片上進行成功的訓練,知情人士表示。DeepSeek 仍在與華為合作,使該模型與 Ascend 兼容以進行推理,知情人士表示。
... 另一位人士補充說,R2 的發布也因更新模型的數據標註時間超出預期而延遲。中國媒體報導稱,該模型可能會在未來幾週內發布。
15.75K
熱門
排行
收藏