¡Acabo de fusionar un PR para un entorno para mejorar LLM como juez, así como para evaluar modelos en su capacidad para hacer juicios! ¿Sabías que todos los entornos de RL verificables son casi equivalentes a los puntos de referencia (¡y viceversa!)? Así que agregamos un comando evaluate a la base de Atropos y ahora puede ejecutar puntos de referencia a través de entornos Atropos. Nos frustramos al trabajar con tantos marcos de referencia que estaban desactualizados o inutilizables, por lo que implementamos el modo de solo evaluación en Atropos, nuestro marco de entornos de RL. ¡Así que nuestro primer puerto desde fuera de nuestros entornos existentes fue @natolambert's Reward-Bench! Nota: por el momento, solo admite modelos de recompensa generativa (jueces LLM regulares). Echa un vistazo al PR aquí:
20.65K