Apenas estamos arañando la superficie en las evaluaciones. La gran mayoría de las tareas de los trabajadores del conocimiento no se capturan en los puntos de referencia más populares de la actualidad. Si bien la calidad de las capacidades a menudo se puede extrapolar de las evaluaciones matemáticas y de codificación existentes, estas no representan completamente la complejidad de estas tareas del mundo real. Pronto entraremos en una era en la que buscar trabajo en servicios legales, financieros, fabricación, contabilidad, consultoría, y muchos otros campos de alto valor serán tan apreciados como la codificación.
will depue
will depue5 sept, 07:02
A menudo, la capacidad del investigador para iterar en una capacidad está limitada por nuestra capacidad para medir esa capacidad. Creo que el progreso es más limitado de lo que la gente piensa. A veces las evaluaciones se sienten causales. ¿SWE-Bench siguió la codificación agencial o la codificación agencial siguió SWE-bench? A menudo escuchamos sobre la resolución de tareas de horizonte realmente largo (semanas, meses) o el aprendizaje continuo que se necesita para AGI, etc. Sin embargo, ¿dónde están las evaluaciones para probar las deficiencias de nuestros modelos aquí? Me encantaría que más personas trabajaran en evaluaciones completas de AGI, evaluaciones que realmente rastreen el valor económico y el impacto, tareas de un mes, etc.
4.7K