Atraso do DeepSeek R2 devido à transição para o chip Huawei Ascend para treinamento? Os engenheiros da DS + HW que colaboram na migração de CUDA para CANN são, em última análise, positivos para a HW a longo prazo. O lançamento do R2 foi originalmente esperado para maio passado. Desde então, pelo menos um modelo chinês SOTA foi lançado, que foi treinado inteiramente em hardware HW. FT: A empresa chinesa de inteligência artificial DeepSeek atrasou o lançamento de seu novo modelo depois de não treiná-lo usando os chips da Huawei, destacando os limites do esforço de Pequim para substituir a tecnologia dos EUA. A DeepSeek foi incentivada pelas autoridades a adotar o processador Ascend da Huawei em vez de usar os sistemas da Nvidia depois de lançar seu modelo R1 em janeiro, de acordo com três pessoas familiarizadas com o assunto. Mas a start-up chinesa encontrou problemas técnicos persistentes durante seu processo de treinamento R2 usando chips Ascend, levando-a a usar chips da Nvidia para treinamento e da Huawei para inferência, disseram as pessoas. ... A Huawei enviou uma equipe de engenheiros ao escritório da DeepSeek para ajudar a empresa a usar seu chip de IA para desenvolver o modelo R2, de acordo com duas pessoas. No entanto, apesar de ter a equipe no local, a DeepSeek não conseguiu realizar um treinamento bem-sucedido no chip Ascend, disseram as pessoas. A DeepSeek ainda está trabalhando com a Huawei para tornar o modelo compatível com o Ascend para inferência, disseram as pessoas. ... O lançamento do R2 também foi adiado por causa da rotulagem de dados mais longa do que o esperado para seu modelo atualizado, acrescentou outra pessoa. Reportagens da mídia chinesa sugeriram que o modelo pode ser lançado nas próximas semanas.
15,92K