DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

a menudo, la capacidad de los investigadores para iterar sobre una capacidad está limitada por nuestra capacidad para medir esa capacidad. Creo que el progreso está más limitado por la evaluación de lo que la gente piensa. A veces, las evaluaciones parecen causales. ¿Siguió SWE-Bench la codificación agentiva, o siguió la codificación agentiva a SWE-Bench? A menudo escuchamos sobre la resolución de tareas de muy largo plazo (semanas, meses), o que se necesita aprendizaje continuo para AGI, etc. Sin embargo, ¿dónde están las evaluaciones para probar las deficiencias de nuestros modelos aquí? Me encantaría que más personas trabajaran en evaluaciones completas de AGI, evaluaciones que realmente rastreen el valor económico y el impacto, tareas de un mes, etc.

161,76K

Parte superior

Clasificación

Favoritos