En y regardant de plus près, PyTorch utilise également FP32, mais voici la vraie raison pour laquelle bnb Adam est meilleur : nous avons optimisé pour les nombres à virgule flottante, l'ordre a son importance ! Calculer sqrt(v) + eps*c2 puis diviser évite d'amplifier les erreurs par rapport à sqrt(v)/c2 + eps de PyTorch. Même mathématiques, meilleure stabilité !