En y regardant de plus près, PyTorch utilise également FP32, mais voici la vraie raison pour laquelle bnb Adam est meilleur : nous avons optimisé pour les nombres à virgule flottante, l'ordre a son importance ! Calculer sqrt(v) + eps*c2 puis diviser évite d'amplifier les erreurs par rapport à sqrt(v)/c2 + eps de PyTorch. Même mathématiques, meilleure stabilité !
J'ai entendu parler d'une équipe bitsandbytes, Adam 32 bits offre une meilleure perte et stabilité que PyTorch Adam. Nous effectuons tous les calculs en fp32, donc peu importe quels gradients vous avez ; les calculs sont plus précis. Cela ressemble à l'accumulation fp32 de DeepSeek dans leurs matmuls 8 bits.
J'ai entendu parler d'une équipe bitsandbytes, Adam 32 bits offre une meilleure perte et stabilité que PyTorch Adam. Nous effectuons tous les calculs en fp32, donc peu importe quels gradients vous avez ; les calculs sont plus précis. Cela ressemble à l'accumulation fp32 de DeepSeek dans leurs matmuls 8 bits.