Interessant artikkel! Den tar tak i logit-divergens i LLM-trening med en enkel løsning: sentrer output-embeddingene ved å trekke fra gjennomsnittet deres. Teorien stemmer, en ryddig og elegant løsning! 🔗