Tarkemmin katsottuna PyTorch käyttää myös FP32:ta, mutta tässä on todellinen syy, miksi bnb Adam on parempi: optimoimme float-numeerikselle, järjestyksellä on väliä! Laskemalla sqrt(v) + eps*c2 ja jakamalla vältytään virheiden vahvistamiselta verrattuna PyTorchin sqrt(v)/c2 + eps:ään. Sama matematiikka, parempi vakaus!