Wie schneidet die prompte Optimierung im Vergleich zu RL-Algos wie GRPO ab? GRPO benötigt 1000e von Rollouts, aber Menschen können aus ein paar Versuchen lernen – indem sie darüber nachdenken, was funktioniert hat und was nicht. Lernen Sie GEPA kennen: einen reflektierenden Prompt-Optimierer, der GRPO um bis zu 20 % übertreffen kann, und das bei 35-mal weniger Rollouts! 🧵
231,47K