Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nous avons remporté la première place au sommet Berkeley AgentX pour la catégorie des benchmarks et évaluations ! Félicitations à l'équipe :)


9 juil. 2025
En tant qu’agents d’IA utilisant presque le monde réel, comment savons-nous ce qu’ils peuvent réellement faire ? Les benchmarks fiables sont essentiels, mais les benchmarks agentiques sont cassés !
Exemple : WebArena marque « 45+8 minutes » sur une tâche de calcul de durée comme correcte (réponse réelle : « 63 minutes »). D’autres points de référence évaluent mal la compétence des agents de 1,6 à 100 %.
Pourquoi les fondements de l’évaluation des systèmes agentiques sont-ils fragiles ? Voir ci-dessous pour le fil de discussion et les liens
1/8
1K
Meilleurs
Classement
Favoris