一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

DeepSeek R2 延迟是因为转向华为 Ascend 芯片进行训练？ DS + HW 工程师在 CUDA 到 CANN 的迁移上合作，从长远来看对 HW 是积极的。R2 的发布原本预计在去年五月。自那时起，至少有一个 SOTA 中国模型已经发布，该模型完全在 HW 硬件上训练。 FT：中国人工智能公司 DeepSeek 在未能使用华为的芯片进行训练后，推迟了新模型的发布，这突显了北京在替代美国技术方面的局限性。据三位知情人士透露，DeepSeek 在一月份发布 R1 模型后，受到当局的鼓励，采用华为的 Ascend 处理器，而不是使用 Nvidia 的系统。但这家中国初创公司在使用 Ascend 芯片进行 R2 训练过程中遇到了持续的技术问题，迫使其使用 Nvidia 芯片进行训练，而使用华为的芯片进行推理，知情人士表示。 ... 据两位知情人士透露，华为派遣了一支工程师团队到 DeepSeek 办公室，帮助公司使用其 AI 芯片开发 R2 模型。然而，尽管现场有团队，DeepSeek 仍未能在 Ascend 芯片上进行成功的训练，知情人士表示。DeepSeek 仍在与华为合作，使该模型与 Ascend 兼容以进行推理，知情人士表示。 ... 另一位人士补充说，R2 的发布也因更新模型的数据标注时间超出预期而延迟。中国媒体报道称，该模型可能会在未来几周内发布。

15.82K