Al mirar más de cerca, PyTorch también utiliza FP32, pero aquí está la verdadera razón por la que bnb Adam es mejor: ¡optimizamos para números de punto flotante, el orden sí importa! Calcular sqrt(v) + eps*c2 y luego dividir evita amplificar errores en comparación con sqrt(v)/c2 + eps de PyTorch. ¡La misma matemática, mejor estabilidad!