Khi nhìn kỹ hơn, PyTorch cũng sử dụng FP32, nhưng đây là lý do thực sự khiến bnb Adam tốt hơn: chúng tôi đã tối ưu hóa cho số thực, thứ tự là quan trọng! Tính toán sqrt(v) + eps*c2 rồi chia sẽ tránh được việc khuếch đại lỗi so với sqrt(v)/c2 + eps của PyTorch. Cùng một phép toán, nhưng ổn định hơn!