Tối ưu hóa nhắc nhở so với các thuật toán RL như GRPO như thế nào? GRPO cần 1000 lần triển khai, nhưng con người có thể học hỏi từ một vài thử nghiệm - bằng cách suy ngẫm về những gì hiệu quả và những gì không. Gặp gỡ GEPA: một trình tối ưu hóa nhắc nhở phản quang có thể vượt trội hơn GRPO lên đến 20% với số lần triển khai ít hơn 35 lần! 🧵
231,48K