Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Thật tuyệt khi thấy tài liệu Tinker mới từ @thinkymachines, xác nhận một sự không nhất quán trong tổn thất GRPO.
Chúng tôi đã khám phá vấn đề này trong công việc trước đây của mình () và phát triển một phương pháp mạnh mẽ hơn với những cải tiến hiệu suất đáng kể:
• +12 điểm tuyệt đối so với GRPO
• +6 điểm tuyệt đối so với DAPO
Bài báo của chúng tôi chi tiết thiết kế của các thuật toán gradient chính sách có điều chỉnh KL, và kho lưu trữ của chúng tôi cung cấp một triển khai đã được sửa chữa.
Bài báo:
Mã nguồn:

Hàng đầu
Thứ hạng
Yêu thích