Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Como agentes de IA quase usados no mundo real, como sabemos o que eles podem realmente fazer? Benchmarks confiáveis são críticos, mas benchmarks agenciais estão quebrados!
Exemplo: WebArena marca "45+8 minutos" em uma tarefa de cálculo de duração como correta (resposta real: "63 minutos"). Outros benchmarks estimam erroneamente a competência do agente em 1,6-100%.
Por que os fundamentos de avaliação para sistemas agenciais são frágeis? Veja abaixo o tópico e os links
1/8
As avaliações agenciais diferem dos benchmarks tradicionais de ML em termos de formulação de tarefas e resultados.
Os benchmarks agenciais geralmente dependem de simuladores frágeis (sites de brinquedos, bancos de dados) potencialmente com bugs e atalhos que podem distorcer os resultados. Além disso, os resultados das tarefas de benchmarks agenciais não têm rótulos "ouro" fixos e geralmente precisam julgar respostas não estruturadas (código, chamadas de API, textos longos).
3/8
Para enfrentar esses desafios, os benchmarks agenciais devem ter como objetivo garantir a correlação entre um resultado de avaliação positivo e a capacidade dos agentes de IA visados. Decompomos essa meta em dois critérios essenciais de validade:
1. Validade da tarefa: Uma tarefa pode ser resolvida se e somente se o agente possuir a capacidade de destino.
2. Validade do resultado: O resultado da avaliação é positivo se e somente se a tarefa for resolvida.
4/8

Com base em 17 benchmarks populares (por exemplo, SWE-bench, OSWorld, TAU-bench, etc.), desenvolvemos uma lista de verificação de benchmark agêntico (ABC) de 43 itens para identificar rapidamente até que ponto um benchmark agêntico satisfaz a validade da tarefa e do resultado
ABC:
5/8
Aplicamos ABC a 10 benchmarks impactantes que foram usados para avaliar o3, Gemini 2.5 e Sonnet 4. Aqui está uma visão geral de nossas descobertas:
1. 7/10 benchmarks falham na validade do resultado
2. 7/10 contêm atalhos ocultos/tarefas insolúveis
3. Apenas 2/10 divulgam problemas conhecidos
Fique ligado. Em breve divulgaremos mais detalhes quantitativos e correções para os problemas identificados!
6/8
O ABC capacita os desenvolvedores de benchmarks e modelos a detectar e corrigir falhas antes dos resultados principais.
Explore a lista de verificação completa, exemplos e contribua por meio de nosso site e repositório GitHub para criar benchmarks dignos de IA de fronteira juntos.
7/8
Este é um trabalho conjunto com @maxYuxuanZhu, @yadapruksachatk e outras pessoas de Stanford, Berkeley, Yale, Princeton, MIT, Transluce, ML Commons, Amazon e UK AISI.
8/8
22,03K
Melhores
Classificação
Favoritos