При более близком рассмотрении, PyTorch также использует FP32, но вот настоящая причина, почему bnb Adam лучше: мы оптимизировали для чисел с плавающей запятой, порядок имеет значение! Вычисление sqrt(v) + eps*c2, а затем деление избегает усиления ошибок по сравнению с sqrt(v)/c2 + eps в PyTorch. Та же математика, лучшая стабильность!