Om man tittar närmare använder PyTorch också FP32, men här är den verkliga anledningen till att bnb Adam är bättre: vi har optimerat för flyttalsnummer, ordningen spelar roll! Genom att beräkna sqrt(v) + eps*c2 och sedan dividera undviks förstärkningsfel jämfört med PyTorchs sqrt(v)/c2 + eps. Samma matte, bättre stabilitet!