Цікава стаття! Вона вирішує розбіжність логітів у навчанні LLM простим рішенням: центрування вихідних вкладень шляхом віднімання їхнього середнього. Теорія підтверджується, акуратне та елегантне рішення! 🔗