A DeepSeek R2 está atrasada devido à transição para o chip Ascend da Huawei para treinamento? A colaboração entre engenheiros da DS e da HW na migração de CUDA para CANN é, a longo prazo, positiva para a HW. O lançamento do R2 era originalmente esperado para maio passado. Desde então, pelo menos um modelo SOTA chinês foi lançado, que foi treinado inteiramente em hardware da HW. FT: A empresa chinesa de inteligência artificial DeepSeek atrasou o lançamento de seu novo modelo após não conseguir treiná-lo usando os chips da Huawei, destacando os limites do impulso de Pequim para substituir a tecnologia dos EUA. A DeepSeek foi incentivada pelas autoridades a adotar o processador Ascend da Huawei em vez de usar os sistemas da Nvidia, após lançar seu modelo R1 em janeiro, de acordo com três pessoas familiarizadas com o assunto. Mas a startup chinesa encontrou problemas técnicos persistentes durante seu processo de treinamento do R2 usando chips Ascend, levando-a a usar chips da Nvidia para treinamento e os da Huawei para inferência, disseram as pessoas. ... A Huawei enviou uma equipe de engenheiros para o escritório da DeepSeek para ajudar a empresa a usar seu chip de IA para desenvolver o modelo R2, de acordo com duas pessoas. No entanto, apesar de ter a equipe no local, a DeepSeek não conseguiu realizar um treinamento bem-sucedido no chip Ascend, disseram as pessoas. A DeepSeek ainda está trabalhando com a Huawei para tornar o modelo compatível com o Ascend para inferência, disseram as pessoas. ... O lançamento do R2 também foi atrasado devido à rotulagem de dados mais longa do que o esperado para seu modelo atualizado, acrescentou outra pessoa. Relatórios da mídia chinesa sugeriram que o modelo pode ser lançado em breve, nas próximas semanas.
15,92K