Estamos apenas arranhando a superfície das avaliações. Uma parte significativa das tarefas dos trabalhadores do conhecimento não é capturada nos benchmarks mais populares de hoje. Embora os recursos relevantes possam ser extrapolados a partir de avaliações de codificação e matemática existentes, eles não representam totalmente a complexidade das tarefas do mundo real em muitos campos, como jurídico, serviços financeiros, contabilidade ou consultoria. Em breve, entraremos em uma era em que ir atrás desses fluxos de trabalho será tão valorizado quanto a codificação. Este será um grande desbloqueio para a próxima onda de casos de uso de agentes de IA na empresa.
will depue
will depue5 de set., 07:02
Muitas vezes, a capacidade do pesquisador de iterar em uma capacidade é limitada por nossa capacidade de medir essa capacidade. Eu acredito que o progresso é mais limitado em termos de avaliação do que as pessoas pensam. Às vezes, as avaliações parecem causais. o SWE-Bench seguiu a codificação agêntica ou a codificação agêntica seguiu o SWE-bench? Muitas vezes ouvimos falar sobre a resolução de tarefas de horizonte muito longo (semanas, meses) ou aprendizado contínuo sendo necessário para AGI, etc. No entanto, onde estão as avaliações para provar as deficiências de nossos modelos aqui? eu adoraria que mais pessoas trabalhassem em avaliações completas de AGI, avaliações que realmente rastreiam valor econômico e impacto, tarefas de um mês, etc.
82,25K