Ganhámos o primeiro lugar na cimeira Berkeley AgentX na categoria de benchmarks e avaliações! Parabéns à equipa :)
Daniel Kang
Daniel Kang9/07/2025
Como agentes de IA quase no mundo real, como sabemos o que eles podem realmente fazer? Benchmarks confiáveis são críticos, mas benchmarks agenticos são quebrados! Exemplo: WebArena marca "45+8 minutos" em uma tarefa de cálculo de duração como correta (resposta real: "63 minutos"). Outros benchmarks estimam erroneamente a competência do agente em 1,6-100%. Porque é que as bases de avaliação para sistemas agenticos são frágeis? Veja abaixo o tópico e os links 1/8
1,06K