Thật tuyệt khi thấy tài liệu Tinker mới từ @thinkymachines, xác nhận một sự không nhất quán trong tổn thất GRPO. Chúng tôi đã khám phá vấn đề này trong công việc trước đây của mình () và phát triển một phương pháp mạnh mẽ hơn với những cải tiến hiệu suất đáng kể: • +12 điểm tuyệt đối so với GRPO • +6 điểm tuyệt đối so với DAPO Bài báo của chúng tôi chi tiết thiết kế của các thuật toán gradient chính sách có điều chỉnh KL, và kho lưu trữ của chúng tôi cung cấp một triển khai đã được sửa chữa. Bài báo: Mã nguồn: