DApp Store | Pusat Web3 untuk Event & Game

Topik trending

nanochat sekarang dapat melatih LLM kelas GPT-2 seharga <<$100 (~$73, 3 jam pada satu node 8XH100). GPT-2 hanyalah LLM favorit saya karena ini adalah pertama kalinya tumpukan LLM bersatu dalam bentuk modern yang dapat dikenali. Jadi telah menjadi obsesi saya yang aneh dan abadi untuk melatih model dengan kemampuan GPT-2 tetapi jauh lebih murah, dengan manfaat dari ~ 7 tahun kemajuan. Secara khusus, saya menduga hari ini seharusnya mungkin untuk melatih satu seharga << $ 100. Awalnya pada tahun 2019, GPT-2 dilatih oleh OpenAI pada chip 32 TPU v3 selama 168 jam (7 hari), dengan $8/jam/TPUv3 saat itu, dengan total biaya sekitar $43K. Ini mencapai skor CORE 0.256525, yang merupakan metrik ansambel yang diperkenalkan dalam makalah DCLM selama 22 evaluasi seperti ARC / MMLU / dll. Pada beberapa peningkatan terakhir yang digabungkan ke dalam nanochat (banyak di antaranya berasal dari repo modded-nanogpt), saya sekarang dapat mencapai skor CORE yang lebih tinggi dalam 3,04 jam (~$73) pada satu node 8XH100. Ini adalah pengurangan biaya 600X selama 7 tahun, yaitu biaya untuk melatih GPT-2 turun sekitar 2.5X setiap tahun. Saya pikir ini mungkin meremehkan karena saya masih menemukan lebih banyak perbaikan secara relatif teratur dan saya memiliki lebih banyak ide untuk dicoba. Posting yang lebih panjang dengan banyak detail pengoptimalan yang terlibat dan petunjuk tentang cara mereproduksi ada di sini: Terinspirasi oleh modded-nanogpt, saya juga membuat papan peringkat untuk "time to GPT-2", di mana model "Jan29" pertama ini adalah entri #1 pada jam 3.04. Akan menyenangkan untuk mengulangi ini lebih lanjut dan saya menyambut bantuan! Harapan saya adalah nanochat dapat tumbuh menjadi harness LLM eksperimental yang sangat bagus/bersih dan disetel untuk membuat prototipe ide, untuk bersenang-senang, dan ofc untuk belajar. Peningkatan terbesar dari hal-hal yang berhasil di luar kotak dan langsung menghasilkan keuntungan adalah 1) kernel Flash Attention 3 (lebih cepat, dan memungkinkan kwarg window_size untuk mendapatkan pola perhatian bergantian), pengoptimal Muon (saya mencoba selama ~1 hari untuk menghapusnya dan hanya menggunakan AdamW dan saya tidak bisa), jalur sisa dan koneksi lewati yang dijaga oleh skalar yang dapat dipelajari, dan penyematan nilai. Ada banyak hal kecil lainnya yang menumpuk. Gambar: permen mata semi-terkait untuk menurunkan hukum penskalaan untuk miniseri model nanochat saat ini, cantik dan memuaskan!

Teratas

Peringkat

Favorit