Muitas vezes, a capacidade do pesquisador de iterar em uma capacidade é limitada por nossa capacidade de medir essa capacidade. Eu acredito que o progresso é mais limitado em termos de avaliação do que as pessoas pensam. Às vezes, as avaliações parecem causais. o SWE-Bench seguiu a codificação agêntica ou a codificação agêntica seguiu o SWE-bench? Muitas vezes ouvimos falar sobre a resolução de tarefas de horizonte muito longo (semanas, meses) ou aprendizado contínuo sendo necessário para AGI, etc. No entanto, onde estão as avaliações para provar as deficiências de nossos modelos aqui? eu adoraria que mais pessoas trabalhassem em avaliações completas de AGI, avaliações que realmente rastreiam valor econômico e impacto, tarefas de um mês, etc.
149,15K