Nghe từ một nhóm bitsandbytes rằng Adam 32-bit mang lại độ mất mát và ổn định tốt hơn so với PyTorch Adam. Chúng tôi thực hiện tất cả các phép toán trong fp32, vì vậy không quan trọng bạn có gradient gì; các phép toán chính xác hơn. Điều này tương tự như việc tích lũy fp32 của DeepSeek trong các phép nhân ma trận 8-bit.