Intressant artikel! Den tar itu med logit-divergens i LLM-träning med en enkel lösning: centrera utgångsinbäddningarna genom att subtrahera deras medelvärde. Teorin stämmer, snygg och elegant lösning! 🔗