Artigo interessante! Ele aborda a divergência de logits no treinamento de LLM com uma solução simples: centralizar as embeddings de saída subtraindo sua média. A teoria se confirma, solução limpa e elegante! 🔗