Mirando más de cerca, PyTorch también usa FP32, pero esta es la verdadera razón por la que bnb Adam es mejor: optimizamos para números flotantes, ¡el orden sí importa! Calcular sqrt(v) + eps*c2 y luego dividir evita amplificar los errores frente a sqrt(v)/c2 + eps de PyTorch. ¡Las mismas matemáticas, mejor estabilidad!