Hørt fra et team bitsandbytes Adam 32-bit gir bedre tap og stabilitet enn PyTorch Adam. Vi gjør alle beregninger i fp32, så det spiller ingen rolle hvilke gradienter du har; beregningene er mer presise. Dette ligner på DeepSeek fp32-akkumulering i deres 8-bits matmuls.