Một mô hình đào tạo nền tảng mã nguồn mở khổng lồ được mở khóa bởi @_xjdr XJDR là một nhà khoa học điên rồ nên tôi đã phải thử vài lần để thực sự hiểu nó, và tôi vẫn có thể chưa hoàn toàn đánh giá được toàn bộ kết quả. Thông thường, nếu bạn muốn đào tạo một mô hình cơ sở hoàn toàn mới từ đầu, bạn cần rất nhiều GPU chỉ để khởi động một phiên đào tạo nghiêm túc. Điều này rất tốn kém. Một trong những loại khó đào tạo nhất là thiết kế Mixture of Experts theo kiểu DeepSeek. Nó rất mạnh mẽ, nhưng hệ thống định tuyến và thiết lập đào tạo rất khó khăn đến nỗi các thử nghiệm quy mô nhỏ thường bị sụp đổ. Vì vậy, bạn cần một cụm lớn chỉ để học hỏi điều gì đó, và khi một phiên chạy thất bại, bạn không thể biết liệu ý tưởng của bạn sai hay thiết lập chỉ đơn giản là bị hỏng, vì vậy nghiên cứu chết đi và bạn không học được gì. XJDR đang mở mã nmoe, một nhà máy đào tạo sẵn sàng hoạt động được kết nối theo cách mà một chuyên gia sẽ làm, cụ thể là để lớp mô hình này có thể được đào tạo và nghiên cứu trên một máy tính duy nhất mà không bị hỏng liên tục. Các thí nghiệm nhỏ hoạt động giống như đào tạo thực sự, vì vậy bạn có thể nhận được câu trả lời rõ ràng có hoặc không trước khi chi tiêu hàng triệu đô la và hàng tháng thời gian. Trên thực tế, mọi người có thể thực hiện các thử nghiệm rẻ, nhanh, nơi bạn thay đổi một điều tại một thời điểm, như cách mà các định tuyến mô hình hoạt động giữa các chuyên gia, cách nó học (công thức đào tạo), dữ liệu bạn cung cấp cho nó, và cách bạn tối ưu hóa chất lượng trên mỗi đô la. Bạn thực sự đang kiểm tra áp lực các ý tưởng mới cho các mô hình cơ sở tốt hơn theo cách mà bạn sẽ A/B thử nghiệm một sản phẩm nhưng bạn có thể làm điều đó bên ngoài một phòng thí nghiệm lớn. Tác động tổng thể là vòng lặp nhanh hơn và tiết kiệm chi phí lớn, cộng với nhiều đội ngũ hơn có thể thực tế xây dựng các mô hình nền tảng mới. Điều này có thể có nghĩa là một mô hình lớp DeepSeek tốt hơn, các mô hình kiểu chuyên gia hoàn toàn mới, và nhiều cạnh tranh hơn và nghiên cứu mở hơn vì phí tham gia giảm mạnh và nhiều đột phá hơn xảy ra công khai. Hãy theo dõi, anh ấy đang mở mã hầu hết mọi thứ! Chúc mừng @_xjdr. Chúng tôi rất vui được hỗ trợ bạn và là một phần nhỏ trong câu chuyện của bạn.