souvent, la capacité des chercheurs à itérer sur une compétence est limitée par notre capacité à mesurer cette compétence. Je crois vraiment que le progrès est plus limité par l'évaluation que les gens ne le pensent. parfois, les évaluations semblent causales. Est-ce que SWE-Bench a suivi le codage agentique, ou le codage agentique a-t-il suivi SWE-Bench ? nous entendons souvent parler de la résolution de tâches à très long terme (semaines, mois), ou de l'apprentissage continu nécessaire pour l'AGI, etc. Pourtant, où sont les évaluations pour prouver les lacunes de nos modèles ici ? j'aimerais que plus de gens travaillent sur des évaluations complètes pour l'AGI, des évaluations qui suivent vraiment la valeur économique et l'impact, des tâches d'un mois, etc.
149,15K