Słyszałem od zespołu bitsandbytes, że Adam 32-bit daje lepsze straty i stabilność niż PyTorch Adam. Wszystkie obliczenia wykonujemy w fp32, więc nie ma znaczenia, jakie gradienty masz; obliczenia są bardziej precyzyjne. To jest podobne do akumulacji fp32 w DeepSeek w ich 8-bitowych matmuls.