Как оперативная оптимизация соотносится с алгоритмами RL, такими как GRPO? GRPO нуждается в 1000 развертываниях, но люди могут извлечь уроки из нескольких испытаний, размышляя о том, что сработало, а что нет. Встречайте GEPA: рефлексивный оптимизатор подсказок, который может превзойти GRPO на 20% при меньшем количестве развертываний в 35 раз! 🧵
231,48K