Estamos apenas arranhando a superfície das avaliações. A grande maioria das tarefas do trabalhador do conhecimento não é capturada nos benchmarks mais populares de hoje. Embora a qualidade dos recursos possa ser extrapolada a partir de avaliações de codificação e matemática existentes, elas não representam totalmente a complexidade dessas tarefas do mundo real. Em breve entraremos em uma era em que ir atrás do trabalho em serviços jurídicos, financeiros, manufatura, contabilidade, consultoria, e muitos outros campos de alto valor serão tão valorizados quanto a codificação.
will depue
will depue5 de set., 07:02
Muitas vezes, a capacidade do pesquisador de iterar em uma capacidade é limitada por nossa capacidade de medir essa capacidade. Eu acredito que o progresso é mais limitado em termos de avaliação do que as pessoas pensam. Às vezes, as avaliações parecem causais. o SWE-Bench seguiu a codificação agêntica ou a codificação agêntica seguiu o SWE-bench? Muitas vezes ouvimos falar sobre a resolução de tarefas de horizonte muito longo (semanas, meses) ou aprendizado contínuo sendo necessário para AGI, etc. No entanto, onde estão as avaliações para provar as deficiências de nossos modelos aqui? eu adoraria que mais pessoas trabalhassem em avaliações completas de AGI, avaliações que realmente rastreiam valor econômico e impacto, tarefas de um mês, etc.
4,68K