チームから聞いたところによると、bitsandbytes Adam 32 ビットは PyTorch Adam よりも優れた損失と安定性をもたらします。すべての計算はfp32で行うため、勾配は関係ありません。計算はより正確です。これは、8ビットマトムルでのDeepSeek fp32の蓄積に似ています。