DiepeSeek R2 vertraging door overgang naar Huawei Ascend chip voor training? DS + HW ingenieurs werken samen aan de migratie van CUDA naar CANN, wat uiteindelijk positief is voor HW op de lange termijn. De R2-release werd oorspronkelijk verwacht in mei. Sindsdien is er ten minste één SOTA Chinees model uitgebracht dat volledig op HW-hardware is getraind. FT: Het Chinese kunstmatige intelligentiebedrijf DeepSeek heeft de release van zijn nieuwe model uitgesteld na het falen om het te trainen met behulp van Huawei's chips, wat de grenzen van Beijing's poging om Amerikaanse technologie te vervangen benadrukt. DeepSeek werd door de autoriteiten aangemoedigd om de Ascend-processor van Huawei te adopteren in plaats van gebruik te maken van de systemen van Nvidia, na de release van zijn R1-model in januari, volgens drie mensen die bekend zijn met de zaak. Maar de Chinese start-up ondervond aanhoudende technische problemen tijdens het R2-trainingsproces met Ascend-chips, wat hen ertoe bracht Nvidia-chips voor training en Huawei's voor inferentie te gebruiken, zeiden de mensen. ... Huawei stuurde een team van ingenieurs naar het kantoor van DeepSeek om het bedrijf te helpen zijn AI-chip te gebruiken voor de ontwikkeling van het R2-model, volgens twee mensen. Toch kon DeepSeek, ondanks het team ter plaatse, geen succesvolle trainingsronde op de Ascend-chip uitvoeren, zeiden de mensen. DeepSeek werkt nog steeds samen met Huawei om het model compatibel te maken met Ascend voor inferentie, zeiden de mensen. ... De lancering van de R2 werd ook uitgesteld vanwege langere dan verwachte data-labeling voor het bijgewerkte model, voegde een andere persoon toe. Chinese media hebben gesuggereerd dat het model mogelijk al binnen enkele weken kan worden uitgebracht.
15,87K