Como agentes de IA quase no mundo real, como sabemos o que eles podem realmente fazer? Benchmarks confiáveis são críticos, mas benchmarks agenticos são quebrados! Exemplo: WebArena marca "45+8 minutos" em uma tarefa de cálculo de duração como correta (resposta real: "63 minutos"). Outros benchmarks estimam erroneamente a competência do agente em 1,6-100%. Porque é que as bases de avaliação para sistemas agenticos são frágeis? Veja abaixo o tópico e os links 1/8
As avaliações agentic diferem das referências tradicionais de ML em termos de formulação de tarefas e resultados. Os benchmarks agenticos geralmente dependem de simuladores frágeis (sites de brinquedos, bancos de dados) potencialmente com bugs e atalhos que podem distorcer os resultados. Além disso, os resultados de tarefas de benchmarks agenticos não têm rótulos fixos de "ouro" e muitas vezes precisam julgar respostas não estruturadas (código, chamadas de API, textos longos). 3/8
Para enfrentar esses desafios, os benchmarks agenticos devem ter como objetivo garantir a correlação entre um resultado positivo da avaliação e a capacidade dos agentes de IA alvo. Decompomos esta meta em dois critérios essenciais de validade: 1. Validade da tarefa: Uma tarefa é solucionável se e somente se o agente possuir a capacidade de destino. 2. Validade do Resultado: O resultado da avaliação é positivo se e somente se a tarefa for resolvida. 4/8
Com base em 17 benchmarks populares (por exemplo, SWE-bench, OSWorld, TAU-bench, etc.), desenvolvemos uma lista de verificação de benchmark agentic (ABC) de 43 itens para identificar rapidamente até que ponto um benchmark agentic satisfaz a validade da tarefa e do resultado ABC: 5/8
Aplicamos o ABC a 10 benchmarks impactantes que foram usados para avaliar o3, Gemini 2.5 e Sonnet 4. Aqui está uma visão geral de nossas descobertas: 1. 7/10 índices de referência falham na validade dos resultados 2. 7/10 contêm atalhos ocultos/tarefas insolúveis 3. Apenas 2/10 divulgam problemas conhecidos Fique atento. Em breve divulgaremos mais detalhes quantitativos e correções para os problemas identificados! 6/8
O ABC permite que ambos os desenvolvedores de modelos de benchmark ou de referência detetem falhas e corrijam falhas antes dos resultados de manchete. Explore a lista de verificação completa, exemplos e contribua através do nosso site e do repositório GitHub para construir benchmarks dignos de IA de fronteira juntos. 7/8
Este é um trabalho conjunto com @maxYuxuanZhu, @yadapruksachatk e outras pessoas de Stanford, Berkeley, Yale, Princeton, MIT, Transluce, ML Commons, Amazon e UK AISI. 8/8
22,03K