Olhando mais de perto, o PyTorch também usa FP32, mas aqui está a verdadeira razão pela qual o bnb Adam é melhor: otimizamos para números flutuantes, a ordem importa! Calcular sqrt(v) + eps*c2 e depois dividir evita erros de amplificação em relação ao sqrt(v)/c2 + eps do PyTorch. Mesma matemática, melhor estabilidade!