Bij nader inzien gebruikt PyTorch ook FP32, maar hier is de echte reden waarom bnb Adam beter is: we hebben geoptimaliseerd voor float-numeriek, de volgorde doet er toe! Het berekenen van sqrt(v) + eps*c2 en dit vervolgens delen voorkomt het versterken van fouten in vergelijking met PyTorch's sqrt(v)/c2 + eps. Dezelfde wiskunde, betere stabiliteit!