Acordei com um novo PR meu sendo mesclado no torchtitan. Ele corrige uma instabilidade no torch trunc_normal_ para bf16 que distorcia os pesos na inicialização, levando a grandes ativações e a um treinamento instável.