Nous avons remporté la première place au sommet Berkeley AgentX pour la catégorie des benchmarks et évaluations ! Félicitations à l'équipe :)
Daniel Kang
Daniel Kang9 juil. 2025
En tant qu’agents d’IA utilisant presque le monde réel, comment savons-nous ce qu’ils peuvent réellement faire ? Les benchmarks fiables sont essentiels, mais les benchmarks agentiques sont cassés ! Exemple : WebArena marque « 45+8 minutes » sur une tâche de calcul de durée comme correcte (réponse réelle : « 63 minutes »). D’autres points de référence évaluent mal la compétence des agents de 1,6 à 100 %. Pourquoi les fondements de l’évaluation des systèmes agentiques sont-ils fragiles ? Voir ci-dessous pour le fil de discussion et les liens 1/8
1K