Slyšel od týmu bitsandbytes Adam 32-bit poskytuje lepší ztráty a stabilitu než PyTorch Adam. Všechny výpočty provádíme ve fp32, takže nezáleží na tom, jaké gradienty máte; výpočty jsou přesnější. Je to podobné akumulaci DeepSeek fp32 v jejich 8bitových matmulech.