Nous ne faisons qu'effleurer la surface des évaluations. Une part significative des tâches des travailleurs du savoir n'est pas capturée dans les benchmarks les plus populaires d'aujourd'hui. Bien que des capacités pertinentes puissent souvent être extrapolées à partir des évaluations de codage et de mathématiques existantes, celles-ci ne représentent pas pleinement la complexité des tâches du monde réel dans de nombreux domaines tels que le juridique, les services financiers, la comptabilité ou le conseil. Nous entrerons bientôt dans une ère où s'attaquer à ces flux de travail sera aussi prisé que le codage. Cela va être un énorme déblocage pour la prochaine vague de cas d'utilisation des agents AI dans l'entreprise.
will depue
will depue5 sept., 07:02
souvent, la capacité des chercheurs à itérer sur une compétence est limitée par notre capacité à mesurer cette compétence. Je crois vraiment que le progrès est plus limité par l'évaluation que les gens ne le pensent. parfois, les évaluations semblent causales. Est-ce que SWE-Bench a suivi le codage agentique, ou le codage agentique a-t-il suivi SWE-Bench ? nous entendons souvent parler de la résolution de tâches à très long terme (semaines, mois), ou de l'apprentissage continu nécessaire pour l'AGI, etc. Pourtant, où sont les évaluations pour prouver les lacunes de nos modèles ici ? j'aimerais que plus de gens travaillent sur des évaluations complètes pour l'AGI, des évaluations qui suivent vraiment la valeur économique et l'impact, des tâches d'un mois, etc.
82,25K