一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

提示優化與 GRPO 等 RL 演算法相比如何？ GRPO 需要數千次推出，但人類可以從一些試驗中學習——通過反思哪些有效，哪些無效。認識 GEPA：一種反射式提示優化器，其性能比 GRPO 高出 20%，推出次數減少 35 倍！ 🧵

231.48K