Tienda de dapps | Hub de Web3 para eventos y juegos

Explora el regalo web3 para obtener otros fantásticos premios

Temas en tendencia

Bonk Eco continues to show strength amid $USELESS rally

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

BOOP+2.13 %

Boopa+99.44 %

PORK+0.51 %

Tim Dettmers

Tim Dettmers20 sept, 04:06

Mirando más de cerca, PyTorch también usa FP32, pero esta es la verdadera razón por la que bnb Adam es mejor: optimizamos para números flotantes, ¡el orden sí importa! Calcular sqrt(v) + eps*c2 y luego dividir evita amplificar los errores frente a sqrt(v)/c2 + eps de PyTorch. ¡Las mismas matemáticas, mejor estabilidad!

Tim Dettmers19 sept, 21:50

Escuchado de un equipo bitsandbytes Adam de 32 bits produce mejor pérdida y estabilidad que PyTorch Adam. Hacemos todos los cálculos en fp32, por lo que no importa qué gradientes tenga; los cálculos son más precisos. Esto es similar a la acumulación de DeepSeek fp32 en sus matmuls de 8 bits.

42.56K

Tim Dettmers19 sept, 21:50

51.29K

Tim Dettmers8 sept, 19:57

Siente que la frontera de los agentes de codificación ahora es de pesos abiertos: GLM 4.5 cuesta solo $ 3 / mes y está a la par con Sonnet Kimi K2.1 Turbo es 3x velocidad, 7x más barato que Opus 4.1, pero igual de bueno Kimi K2.1 se siente limpio. El mejor modelo para mí. GPT-5 solo es bueno para especificaciones complicadas, demasiado lento.

238.98K

Populares

Ranking

Favoritas