Nous ne faisons qu'effleurer la surface des évaluations. La grande majorité des tâches des travailleurs du savoir ne sont pas capturées dans les benchmarks les plus populaires d'aujourd'hui. Bien que la qualité des capacités puisse souvent être extrapolée à partir des évaluations de codage et de mathématiques existantes, celles-ci ne représentent pas pleinement la complexité de ces tâches du monde réel. Nous entrerons bientôt dans une ère où la recherche de travail dans les domaines juridiques, des services financiers, de la fabrication, de la comptabilité, du conseil, et de nombreux autres secteurs à forte valeur ajoutée sera aussi prisée que le codage.
will depue
will depue5 sept., 07:02
souvent, la capacité des chercheurs à itérer sur une compétence est limitée par notre capacité à mesurer cette compétence. Je crois vraiment que le progrès est plus limité par l'évaluation que les gens ne le pensent. parfois, les évaluations semblent causales. Est-ce que SWE-Bench a suivi le codage agentique, ou le codage agentique a-t-il suivi SWE-Bench ? nous entendons souvent parler de la résolution de tâches à très long terme (semaines, mois), ou de l'apprentissage continu nécessaire pour l'AGI, etc. Pourtant, où sont les évaluations pour prouver les lacunes de nos modèles ici ? j'aimerais que plus de gens travaillent sur des évaluations complètes pour l'AGI, des évaluations qui suivent vraiment la valeur économique et l'impact, des tâches d'un mois, etc.
4,68K