Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI ha sido claro en que las evaluaciones deben "hacer que los objetivos difusos sean específicos y explícitos", y que las evaluaciones de frontera deben ir acompañadas de evaluaciones contextuales que coincidan con flujos de trabajo reales en lugar de parques de pruebas de prompts:
Lo que @shyamalanadkat, Jefe de Evaluaciones Aplicadas en @OpenAI, describe es el mismo ciclo que queremos para los agentes de codificación con cline-bench: un conjunto dorado compartido de tareas de codificación difíciles y del mundo real donde los modelos tuvieron dificultades y los humanos tuvieron que intervenir, empaquetado como entornos reproducibles para que los laboratorios y equipos puedan especificar cómo se ve "genial", medir el rendimiento en condiciones reales y mejorar aprendiendo de casos de fracaso concretos:
Si quieres el contexto completo sobre cómo OpenAI piensa acerca de las evaluaciones, el resumen está aquí:


Parte superior
Clasificación
Favoritos

