Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¡Acabo de fusionar un PR para un entorno para mejorar LLM como juez, así como para evaluar modelos en su capacidad para hacer juicios!
¿Sabías que todos los entornos de RL verificables son casi equivalentes a los puntos de referencia (¡y viceversa!)? Así que agregamos un comando evaluate a la base de Atropos y ahora puede ejecutar puntos de referencia a través de entornos Atropos.
Nos frustramos al trabajar con tantos marcos de referencia que estaban desactualizados o inutilizables, por lo que implementamos el modo de solo evaluación en Atropos, nuestro marco de entornos de RL.
¡Así que nuestro primer puerto desde fuera de nuestros entornos existentes fue @natolambert's Reward-Bench!
Nota: por el momento, solo admite modelos de recompensa generativa (jueces LLM regulares).
Echa un vistazo al PR aquí:

20.65K
Populares
Ranking
Favoritas