Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
souvent, la capacité des chercheurs à itérer sur une compétence est limitée par notre capacité à mesurer cette compétence. Je crois vraiment que le progrès est plus limité par l'évaluation que les gens ne le pensent.
parfois, les évaluations semblent causales. Est-ce que SWE-Bench a suivi le codage agentique, ou le codage agentique a-t-il suivi SWE-Bench ?
nous entendons souvent parler de la résolution de tâches à très long terme (semaines, mois), ou de l'apprentissage continu nécessaire pour l'AGI, etc. Pourtant, où sont les évaluations pour prouver les lacunes de nos modèles ici ?
j'aimerais que plus de gens travaillent sur des évaluations complètes pour l'AGI, des évaluations qui suivent vraiment la valeur économique et l'impact, des tâches d'un mois, etc.
149,15K
Meilleurs
Classement
Favoris