Интересная статья! Она рассматривает дивергенцию логитов в обучении LLM с простым решением: центрирование выходных эмбеддингов путем вычитания их среднего значения. Теория подтверждается, аккуратное и элегантное решение! 🔗