Ich bin aufgewacht und habe gesehen, dass ein neues PR von mir in torchtitan zusammengeführt wurde. Es behebt eine Instabilität in torch trunc_normal_ für bf16, die Gewichte bei der Initialisierung verzerrte, was zu großen Aktivierungen und instabilem Training führte.