Estamos apenas a arranhar a superfície das avaliações. A vasta maioria das tarefas dos trabalhadores do conhecimento não está capturada nos benchmarks mais populares de hoje. Embora a qualidade das capacidades possa frequentemente ser extrapolada a partir das avaliações existentes de codificação e matemática, estas não representam totalmente a complexidade dessas tarefas do mundo real. Em breve, entraremos numa era em que buscar trabalho nas áreas legal, serviços financeiros, manufatura, contabilidade, consultoria, e muitas outras áreas de alto valor será tão valorizado quanto a codificação.
will depue
will depue5/09, 07:02
frequentemente, a capacidade dos pesquisadores de iterar sobre uma capacidade é limitada pela nossa capacidade de medir essa capacidade. eu realmente acredito que o progresso é mais limitado por avaliações do que as pessoas pensam. às vezes, as avaliações parecem causais. o SWE-Bench seguiu a codificação agentic, ou a codificação agentic seguiu o SWE-bench? frequentemente ouvimos falar sobre a resolução de tarefas de longo prazo (semanas, meses), ou que a aprendizagem contínua é necessária para a AGI, etc. no entanto, onde estão as avaliações para provar as deficiências dos nossos modelos aqui? eu adoraria que mais pessoas trabalhassem em avaliações completas de AGI, avaliações que realmente rastreiam o valor econômico e o impacto, tarefas de um mês, etc.
4,7K