提示優化與 GRPO 等 RL 演算法相比如何? GRPO 需要數千次推出,但人類可以從一些試驗中學習——通過反思哪些有效,哪些無效。 認識 GEPA:一種反射式提示優化器,其性能比 GRPO 高出 20%,推出次數減少 35 倍! 🧵
231.48K