Kuullut tiimiltä bitsandbytes Adam 32-bittinen tuottaa paremman häviön ja vakauden kuin PyTorch Adam. Teemme kaikki laskelmat fp32:ssa, joten sillä ei ole väliä, mitä gradientteja sinulla on; laskelmat ovat tarkempia. Tämä on samanlainen kuin DeepSeek fp32:n kertyminen heidän 8-bittisissä matmuleissaan.