Ich habe von einem Team namens bitsandbytes gehört, dass Adam 32-Bit eine bessere Verlust- und Stabilitätsleistung als PyTorch Adam bietet. Wir führen alle Berechnungen in fp32 durch, daher spielt es keine Rolle, welche Gradienten Sie haben; die Berechnungen sind präziser. Dies ähnelt der fp32-Akkumulation von DeepSeek in ihren 8-Bit-Matmuls.