Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
nanochat giờ đây có thể huấn luyện mô hình LLM cấp độ GPT-2 với <<$100 (~$73, 3 giờ trên một nút 8XH100 đơn).
GPT-2 là mô hình LLM yêu thích của tôi vì đây là lần đầu tiên mà hệ thống LLM được kết hợp lại theo một hình thức hiện đại dễ nhận biết. Vì vậy, tôi đã trở thành một người có chút ám ảnh kỳ lạ và lâu dài trong việc huấn luyện một mô hình đạt khả năng GPT-2 nhưng với chi phí rẻ hơn nhiều, với lợi ích từ ~7 năm tiến bộ. Cụ thể, tôi nghi ngờ rằng hôm nay có thể huấn luyện một mô hình với chi phí <<$100.
Ban đầu vào năm 2019, GPT-2 đã được OpenAI huấn luyện trên 32 chip TPU v3 trong 168 giờ (7 ngày), với giá $8/giờ/TPUv3 vào thời điểm đó, tổng chi phí khoảng $43K. Nó đạt được điểm CORE 0.256525, đây là một chỉ số tổng hợp được giới thiệu trong bài báo DCLM qua 22 đánh giá như ARC/MMLU/v.v.
Tính đến những cải tiến gần đây được hợp nhất vào nanochat (nhiều trong số đó xuất phát từ repo modded-nanogpt), tôi giờ đây có thể đạt được điểm CORE cao hơn trong 3.04 giờ (~$73) trên một nút 8XH100 đơn. Đây là sự giảm chi phí 600X trong 7 năm, tức là chi phí để huấn luyện GPT-2 đang giảm khoảng 2.5X mỗi năm. Tôi nghĩ đây có thể là một ước lượng thấp vì tôi vẫn đang tìm ra nhiều cải tiến tương đối thường xuyên và tôi có một danh sách các ý tưởng để thử.
Một bài viết dài hơn với nhiều chi tiết về các tối ưu hóa liên quan và hướng dẫn cách tái tạo có ở đây:
Lấy cảm hứng từ modded-nanogpt, tôi cũng đã tạo ra một bảng xếp hạng cho "thời gian đến GPT-2", nơi mô hình "Jan29" đầu tiên này là mục #1 với 3.04 giờ. Sẽ thật thú vị khi tiếp tục phát triển điều này và tôi rất hoan nghênh sự giúp đỡ! Hy vọng rằng nanochat có thể phát triển thành một công cụ LLM thí nghiệm rất đẹp/sạch và được tinh chỉnh để thử nghiệm ý tưởng, để vui vẻ, và tất nhiên là để học hỏi.
Những cải tiến lớn nhất của những thứ hoạt động ngay lập tức và đơn giản tạo ra lợi ích ngay lập tức là 1) các kernel Flash Attention 3 (nhanh hơn, và cho phép tham số window_size kwarg để có các mẫu chú ý luân phiên), bộ tối ưu hóa Muon (tôi đã thử trong ~1 ngày để xóa nó và chỉ sử dụng AdamW nhưng không thể), các đường dẫn dư và các kết nối bỏ qua được điều khiển bởi các số học có thể học được, và các nhúng giá trị. Còn nhiều điều nhỏ khác đã tích lũy lại.
Hình ảnh: đồ họa liên quan đến việc suy diễn các quy luật tỷ lệ cho loạt mô hình nanochat hiện tại, đẹp và thỏa mãn!

Hàng đầu
Thứ hạng
Yêu thích
