Mirando más de cerca, PyTorch también usa FP32, pero esta es la verdadera razón por la que bnb Adam es mejor: optimizamos para números flotantes, ¡el orden sí importa! Calcular sqrt(v) + eps*c2 y luego dividir evita amplificar los errores frente a sqrt(v)/c2 + eps de PyTorch. ¡Las mismas matemáticas, mejor estabilidad!
Escuchado de un equipo bitsandbytes Adam de 32 bits produce mejor pérdida y estabilidad que PyTorch Adam. Hacemos todos los cálculos en fp32, por lo que no importa qué gradientes tenga; los cálculos son más precisos. Esto es similar a la acumulación de DeepSeek fp32 en sus matmuls de 8 bits.
Escuchado de un equipo bitsandbytes Adam de 32 bits produce mejor pérdida y estabilidad que PyTorch Adam. Hacemos todos los cálculos en fp32, por lo que no importa qué gradientes tenga; los cálculos son más precisos. Esto es similar a la acumulación de DeepSeek fp32 en sus matmuls de 8 bits.
Siente que la frontera de los agentes de codificación ahora es de pesos abiertos:
GLM 4.5 cuesta solo $ 3 / mes y está a la par con Sonnet
Kimi K2.1 Turbo es 3x velocidad, 7x más barato que Opus 4.1, pero igual de bueno
Kimi K2.1 se siente limpio. El mejor modelo para mí. GPT-5 solo es bueno para especificaciones complicadas, demasiado lento.