frequentemente, a capacidade dos pesquisadores de iterar sobre uma capacidade é limitada pela nossa capacidade de medir essa capacidade. eu realmente acredito que o progresso é mais limitado por avaliações do que as pessoas pensam. às vezes, as avaliações parecem causais. o SWE-Bench seguiu a codificação agentic, ou a codificação agentic seguiu o SWE-bench? frequentemente ouvimos falar sobre a resolução de tarefas de longo prazo (semanas, meses), ou que a aprendizagem contínua é necessária para a AGI, etc. no entanto, onde estão as avaliações para provar as deficiências dos nossos modelos aqui? eu adoraria que mais pessoas trabalhassem em avaliações completas de AGI, avaliações que realmente rastreiam o valor econômico e o impacto, tarefas de um mês, etc.
149,12K