有趣的論文!它通過一個簡單的修正來處理LLM訓練中的logits發散:通過減去它們的均值來中心化輸出嵌入。理論是正確的,這是一個簡潔而優雅的解決方案! 🔗