Ser vi nærmere etter, bruker PyTorch også FP32, men her er den virkelige grunnen til at bnb Adam er bedre: vi optimaliserte for flytetall, rekkefølge betyr noe! Beregning av sqrt(v) + eps*c2 og deretter deling unngår forsterkningsfeil kontra PyTorchs sqrt(v)/c2 + eps. Samme regnestykke, bedre stabilitet!