Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
nanochat теперь может обучать LLM уровня GPT-2 за <<$100 (~$73, 3 часа на одном узле 8XH100).
GPT-2 — это моя любимая LLM, потому что это первый раз, когда стек LLM собирается в узнаваемой современной форме. Поэтому у меня возникла странная и длительная одержимость обучением модели до уровня GPT-2, но гораздо дешевле, с преимуществом ~7 лет прогресса. В частности, я подозревал, что сегодня должно быть возможно обучить одну за <<$100.
Изначально в 2019 году GPT-2 была обучена OpenAI на 32 TPU v3 чипах в течение 168 часов (7 дней), по $8/час/TPUv3 тогда, с общей стоимостью примерно $43K. Она достигает 0.256525 CORE балла, который является ансамблевой метрикой, введенной в статье DCLM по 22 оценкам, таким как ARC/MMLU и т.д.
На данный момент, после последних улучшений, объединенных в nanochat (многие из них происходят из репозитория modded-nanogpt), я теперь могу достичь более высокого CORE балла за 3.04 часа (~$73) на одном узле 8XH100. Это снижение стоимости в 600 раз за 7 лет, т.е. стоимость обучения GPT-2 падает примерно на 2.5 раза каждый год. Я думаю, что это, вероятно, заниженная оценка, потому что я все еще регулярно нахожу больше улучшений, и у меня есть запас идей, которые нужно попробовать.
Длинный пост с множеством деталей оптимизаций и указаниями о том, как воспроизвести, находится здесь:
Вдохновленный modded-nanogpt, я также создал таблицу лидеров для "времени до GPT-2", где эта первая модель "Jan29" является записью #1 за 3.04 часа. Будет интересно продолжить это развивать, и я приветствую помощь! Я надеюсь, что nanochat сможет вырасти в очень приятный/чистый и настроенный экспериментальный LLM инструмент для прототипирования идей, для развлечения и, конечно, для обучения.
Самые большие улучшения, которые сработали сразу и просто принесли результаты, были 1) ядра Flash Attention 3 (быстрее и позволяют использовать аргумент window_size для получения чередующихся паттернов внимания), оптимизатор Muon (я пытался около 1 дня удалить его и использовать только AdamW, но не смог), остаточные пути и пропускные соединения, управляемые обучаемыми скалярами, и векторные встраивания. Было много других мелких вещей, которые складываются.
Изображение: полузависимое зрелище, выводящее законы масштабирования для текущей минисерии модели nanochat, красиво и удовлетворительно!

Топ
Рейтинг
Избранное
