Tri thức hiện tại cho rằng tính toán là yếu tố quan trọng nhất cho việc đào tạo AI tiên tiến. Chúng tôi nghĩ rằng điều này là sai: dữ liệu là thành phần tốn kém và quan trọng nhất trong việc đào tạo AI. Chúng tôi đã thu thập ước tính doanh thu cho các công ty gán nhãn dữ liệu lớn và so sánh chúng với chi phí tính toán biên cho việc đào tạo các mô hình hàng đầu vào năm 2024. Các ước tính của chúng tôi cho thấy rằng việc gán nhãn dữ liệu cao hơn ~3 lần so với chi phí tính toán đào tạo biên. 1/8
Bài viết blog gần đây của chúng tôi phân tích chi phí thực sự của việc đào tạo các mô hình hàng đầu hiện nay với những con số cụ thể và các nghiên cứu điển hình. Phân tích đầy đủ có trên Substack: 2/8
Một cái nhìn tổng quan về năm 2024: chúng tôi đã tính toán doanh thu hàng năm của các công ty gán nhãn lớn (Scale, Surge, Mercor, Labelbox, …) và so sánh nó với chi phí tính toán biên cho việc đào tạo GPT-4o, Sonnet-3.5, Mistral-Large, Grok-2, và Llama-3-405B. Kết quả: chi phí gán nhãn cao gấp khoảng 3 lần chi phí tính toán biên. 3/8
Từ năm 2023 đến 2024, chúng tôi thấy một sự tăng vọt 88 lần trong ngành công nghiệp gán nhãn dữ liệu, trong khi chi phí tính toán đào tạo chỉ tăng 1,3 lần. Đây là tỷ lệ tăng trưởng nhanh hơn ~70 lần cho việc gán nhãn dữ liệu. Lưu ý rằng chúng tôi không mong đợi các xu hướng này sẽ tiếp tục vào năm 2025 và xa hơn, vì hầu hết sự tăng trưởng đến từ Mercor, vì vậy tỷ lệ tăng trưởng sẽ thấp hơn, ngay cả khi tổng chi phí dữ liệu tăng lên. 4/8
Ngoài doanh thu, MiniMax-M1 cần <1 triệu USD để đạt được chất lượng Claude-Opus-4, nhưng việc biên soạn một tập dữ liệu RL với 140k chú thích của con người sẽ tốn khoảng 14 triệu USD, gấp 28 lần chi phí đào tạo. 5/8
Tương tự, SkyRL-SQL đã đạt được kết quả tương đương với GPT-4o trong việc chuyển đổi văn bản thành SQL chỉ với $360 chi phí tính toán cho việc đào tạo, nhưng 600 truy vấn được chú thích bởi chuyên gia được sử dụng trong giai đoạn sau đào tạo có chi phí khoảng ~$60K 6/8
Chúng tôi khuyến khích các tổ chức theo dõi đầu vào cho AI cũng như theo dõi chi phí dữ liệu con người, vì chúng tôi tin rằng điều này rất quan trọng để hiểu tiến trình của AI 7/8
Được đồng viết với @maxYuxuanZhu 8/8
104,25K