Interessant paper! Het behandelt de divergentie van logits in de training van LLM met een eenvoudige oplossing: centreer de output-embeddings door hun gemiddelde af te trekken. De theorie klopt, nette en elegante oplossing! 🔗