Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ganhámos o primeiro lugar na cimeira Berkeley AgentX na categoria de benchmarks e avaliações! Parabéns à equipa :)


9/07/2025
Como agentes de IA quase no mundo real, como sabemos o que eles podem realmente fazer? Benchmarks confiáveis são críticos, mas benchmarks agenticos são quebrados!
Exemplo: WebArena marca "45+8 minutos" em uma tarefa de cálculo de duração como correta (resposta real: "63 minutos"). Outros benchmarks estimam erroneamente a competência do agente em 1,6-100%.
Porque é que as bases de avaliação para sistemas agenticos são frágeis? Veja abaixo o tópico e os links
1/8
1,06K
Top
Classificação
Favoritos