Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vi vant førsteplassen på Berkeley AgentX-toppmøtet for benchmarks og evalueringssporet! Gratulerer til teamet :)


9. juli 2025
Når AI-agenter nærmer seg bruk i den virkelige verden, hvordan vet vi hva de faktisk kan gjøre? Pålitelige benchmarks er kritiske, men agentiske benchmarks er brutt!
Eksempel: WebArena markerer "45+8 minutter" på en varighetsberegningsoppgave som riktig (reelt svar: "63 minutter"). Andre referanseindekser feilestimerer agentkompetanse med 1,6-100 %.
Hvorfor er evalueringsgrunnlaget for agentiske systemer skjøre? Se nedenfor for tråd og lenker
1/8
991
Topp
Rangering
Favoritter