Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ganhamos o primeiro lugar na cúpula Berkeley AgentX para a trilha de benchmarks e avaliações! Parabéns à equipe :)


9 de jul. de 2025
Como agentes de IA quase usados no mundo real, como sabemos o que eles podem realmente fazer? Benchmarks confiáveis são críticos, mas benchmarks agenciais estão quebrados!
Exemplo: WebArena marca "45+8 minutos" em uma tarefa de cálculo de duração como correta (resposta real: "63 minutos"). Outros benchmarks estimam erroneamente a competência do agente em 1,6-100%.
Por que os fundamentos de avaliação para sistemas agenciais são frágeis? Veja abaixo o tópico e os links
1/8
1,08K
Melhores
Classificação
Favoritos