Bei näherer Betrachtung verwendet PyTorch ebenfalls FP32, aber hier ist der wahre Grund, warum bnb Adam besser ist: Wir haben für Fließkommazahlen optimiert, die Reihenfolge ist wichtig! Das Berechnen von sqrt(v) + eps*c2 und dann die Division vermeidet die Verstärkung von Fehlern im Vergleich zu PyTorchs sqrt(v)/c2 + eps. Die gleiche Mathematik, bessere Stabilität!
Ich habe von einem Team namens bitsandbytes gehört, dass Adam 32-Bit eine bessere Verlust- und Stabilitätsleistung als PyTorch Adam bietet. Wir führen alle Berechnungen in fp32 durch, daher spielt es keine Rolle, welche Gradienten Sie haben; die Berechnungen sind präziser. Dies ähnelt der fp32-Akkumulation von DeepSeek in ihren 8-Bit-Matmuls.
Ich habe von einem Team namens bitsandbytes gehört, dass Adam 32-Bit eine bessere Verlust- und Stabilitätsleistung als PyTorch Adam bietet. Wir führen alle Berechnungen in fp32 durch, daher spielt es keine Rolle, welche Gradienten Sie haben; die Berechnungen sind präziser. Dies ähnelt der fp32-Akkumulation von DeepSeek in ihren 8-Bit-Matmuls.
Es fühlt sich an, als wäre die Grenze des Codierungsagenten jetzt offen - Gewichte:
GLM 4.5 kostet nur 3 $/Monat und ist gleichwertig mit Sonnet.
Kimi K2.1 Turbo ist 3x schneller, 7x günstiger im Vergleich zu Opus 4.1, aber genauso gut.
Kimi K2.1 fühlt sich sauber an. Das beste Modell für mich. GPT-5 ist nur gut für komplizierte Spezifikationen -- zu langsam.