醒來時發現我一個新的 PR 被合併到 torchtitan。這修復了 bf16 的 torch trunc_normal_ 中的不穩定性,這在初始化時扭曲了權重,導致了大的激活和不穩定的訓練。