Melihat lebih dekat, PyTorch juga menggunakan FP32, tetapi inilah alasan sebenarnya mengapa bnb Adam lebih baik: kami mengoptimalkan untuk numerik float, urutan itu penting! Menghitung sqrt(v) + eps*c2 kemudian membagi menghindari kesalahan penguatan vs sqrt(v)/c2 + eps PyTorch. Matematika yang sama, stabilitas yang lebih baik!