提示优化与 GRPO 等 RL 算法相比如何? GRPO 需要数千次推出,但人类可以从一些试验中吸取教训——通过反思哪些有效,哪些无效。 认识 GEPA:一种反射式提示优化器,其性能比 GRPO 高出 20%,而推出次数减少 35 倍! 🧵
231.47K