DeepSeek R2 bị trì hoãn do chuyển đổi sang chip Huawei Ascend để đào tạo? Các kỹ sư DS + HW hợp tác trong việc di chuyển từ CUDA sang CANN cuối cùng sẽ có lợi cho HW trong dài hạn. Việc phát hành R2 ban đầu dự kiến vào tháng Năm năm ngoái. Kể từ đó, ít nhất một mô hình SOTA của Trung Quốc đã được phát hành, được đào tạo hoàn toàn trên phần cứng HW. FT: Công ty trí tuệ nhân tạo Trung Quốc DeepSeek đã trì hoãn việc phát hành mô hình mới của mình sau khi không thể đào tạo nó bằng chip của Huawei, làm nổi bật những giới hạn trong nỗ lực của Bắc Kinh nhằm thay thế công nghệ của Mỹ. DeepSeek đã được các cơ quan khuyến khích áp dụng bộ xử lý Ascend của Huawei thay vì sử dụng hệ thống của Nvidia sau khi phát hành mô hình R1 vào tháng Giêng, theo ba người quen thuộc với vấn đề này. Nhưng công ty khởi nghiệp Trung Quốc đã gặp phải các vấn đề kỹ thuật kéo dài trong quá trình đào tạo R2 của mình bằng chip Ascend, buộc họ phải sử dụng chip Nvidia cho việc đào tạo và chip của Huawei cho việc suy diễn, theo những người này. ... Huawei đã gửi một đội ngũ kỹ sư đến văn phòng của DeepSeek để giúp công ty sử dụng chip AI của mình để phát triển mô hình R2, theo hai người. Tuy nhiên, mặc dù có đội ngũ tại chỗ, DeepSeek vẫn không thể thực hiện một lần đào tạo thành công trên chip Ascend, theo những người này. DeepSeek vẫn đang làm việc với Huawei để làm cho mô hình tương thích với Ascend cho việc suy diễn, những người này cho biết. ... Việc ra mắt R2 cũng bị trì hoãn do việc gán nhãn dữ liệu lâu hơn mong đợi cho mô hình cập nhật của nó, một người khác cho biết. Các báo cáo truyền thông Trung Quốc đã gợi ý rằng mô hình có thể được phát hành sớm nhất trong vài tuần tới.
15,85K