nanochat тепер може навчати LLM класу GPT-2 за $100 <<(~$73, 3 години на одному вузлі 8XH100). GPT-2 — це просто моя улюблена LLM, бо це перший раз, коли стек LLM об'єднується у впізнавано сучасній формі. Тож це стало моєю дивною і тривалою одержимістю — навчати модель для GPT-2, але значно дешевше, з перевагою ~7 років прогресу. Зокрема, я підозрював, що сьогодні можна навчити одного за <<$100. Спочатку у 2019 році GPT-2 тренувався компанією OpenAI на 32 TPU v3 чипах протягом 168 годин (7 днів), тоді з $8/година за TPUv3, загальна вартість приблизно $43K. Він досягає 0,256525 CORE балу, що є ансамблевою метрикою, введеною в статті DCLM за 22 оцінюваннями, такими як ARC/MMLU тощо. Після останніх покращень, об'єднаних у nanochat (багато з них походять із модифікованого nanogpt репозиторію), тепер я можу досягти вищого CORE за 3,04 години (~$73) на одному вузлі 8XH100. Це скорочення витрат у 600 разів за 7 років, тобто вартість навчання GPT-2 зменшується приблизно у 2,5 рази щороку. Думаю, це недооцінка, бо я досі регулярно знаходжу нові покращення і маю запас ідей для спроби. Ось довший допис із детальним описом оптимізації та порадами, як їх відтворити: Натхненний modded-nanogpt, я також створив таблицю лідерів для «часу до GPT-2», де ця перша модель «Jan29» — запис #1 на 3:04. Буде цікаво розглянути це детальніше, і я буду радий допомогти! Я сподіваюся, що nanochat стане дуже хорошим, чистим і налаштованим експериментальним LLM-інструментом для прототипування ідей, для задоволення і, звісно, для навчання. Найбільші покращення, які працювали одразу і приносили одразу прирост, були: 1) ядра Flash Attention 3 (швидші і дозволяють window_size kwarg отримувати чергувані патерни уваги), оптимізатор мюонів (я намагався видалити його ~1 день і використав лише AdamW, але не зміг), залишкові шляхи та пропускні з'єднання, обмежені навчаними скалярами, та вкладення цінності. Було багато інших дрібних речей, які накопичувалися. Зображення: напівпов'язане візуальне задоволення від виведення законів масштабування для поточної мінісерії nanochat моделей, гарно і приємно!