J'ai entendu parler d'une équipe bitsandbytes, Adam 32 bits offre une meilleure perte et stabilité que PyTorch Adam. Nous effectuons tous les calculs en fp32, donc peu importe quels gradients vous avez ; les calculs sont plus précis. Cela ressemble à l'accumulation fp32 de DeepSeek dans leurs matmuls 8 bits.