Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Apenas estamos rascando la superficie en las evaluaciones. Una parte significativa de las tareas de los trabajadores del conocimiento no se captura en los benchmarks más populares de hoy en día.
Si bien a menudo se pueden extrapolar capacidades relevantes de las evaluaciones de codificación y matemáticas existentes, estas no representan completamente la complejidad de las tareas del mundo real en muchos campos como el legal, los servicios financieros, la contabilidad o la consultoría.
Pronto entraremos en una era donde abordar estos flujos de trabajo será tan valorado como la codificación. Esto va a ser un gran desbloqueo para la próxima ola de casos de uso de agentes de IA en la empresa.

5 sept, 07:02
a menudo, la capacidad de los investigadores para iterar sobre una capacidad está limitada por nuestra capacidad para medir esa capacidad. Creo que el progreso está más limitado por la evaluación de lo que la gente piensa.
A veces, las evaluaciones parecen causales. ¿Siguió SWE-Bench la codificación agentiva, o siguió la codificación agentiva a SWE-Bench?
A menudo escuchamos sobre la resolución de tareas de muy largo plazo (semanas, meses), o que se necesita aprendizaje continuo para AGI, etc. Sin embargo, ¿dónde están las evaluaciones para probar las deficiencias de nuestros modelos aquí?
Me encantaría que más personas trabajaran en evaluaciones completas de AGI, evaluaciones que realmente rastreen el valor económico y el impacto, tareas de un mes, etc.
82,25K
Parte superior
Clasificación
Favoritos