Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nous ne faisons qu'effleurer la surface des évaluations. Une part significative des tâches des travailleurs du savoir n'est pas capturée dans les benchmarks les plus populaires d'aujourd'hui.
Bien que des capacités pertinentes puissent souvent être extrapolées à partir des évaluations de codage et de mathématiques existantes, celles-ci ne représentent pas pleinement la complexité des tâches du monde réel dans de nombreux domaines tels que le juridique, les services financiers, la comptabilité ou le conseil.
Nous entrerons bientôt dans une ère où s'attaquer à ces flux de travail sera aussi prisé que le codage. Cela va être un énorme déblocage pour la prochaine vague de cas d'utilisation des agents AI dans l'entreprise.

5 sept., 07:02
souvent, la capacité des chercheurs à itérer sur une compétence est limitée par notre capacité à mesurer cette compétence. Je crois vraiment que le progrès est plus limité par l'évaluation que les gens ne le pensent.
parfois, les évaluations semblent causales. Est-ce que SWE-Bench a suivi le codage agentique, ou le codage agentique a-t-il suivi SWE-Bench ?
nous entendons souvent parler de la résolution de tâches à très long terme (semaines, mois), ou de l'apprentissage continu nécessaire pour l'AGI, etc. Pourtant, où sont les évaluations pour prouver les lacunes de nos modèles ici ?
j'aimerais que plus de gens travaillent sur des évaluations complètes pour l'AGI, des évaluations qui suivent vraiment la valeur économique et l'impact, des tâches d'un mois, etc.
82,25K
Meilleurs
Classement
Favoris