Je me suis réveillé avec un nouveau PR à moi qui a été fusionné dans torchtitan. Il corrige une instabilité dans torch trunc_normal_ pour bf16 qui déformait les poids à l'initialisation, entraînant de grandes activations et un entraînement instable.