詳しく見ると、PyTorch も FP32 を使用していますが、bnb Adam が優れている本当の理由は次のとおりです。sqrt(v) + eps*c2 を計算してから除算すると、PyTorch の sqrt(v)/c2 + eps に対する誤差の増幅が回避されます。同じ計算で安定性が向上します!