Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Am câștigat primul loc la summitul Berkeley AgentX pentru benchmark-uri și evaluări! Felicitări echipei :)


9 iul. 2025
Pe măsură ce agenții AI sunt aproape de utilizarea în lumea reală, de unde știm ce pot face de fapt? Benchmark-urile fiabile sunt critice, dar benchmark-urile agentice sunt rupte!
Exemplu: WebArena marchează "45+8 minute" pe o sarcină de calcul a duratei ca fiind corect (răspuns real: "63 minute"). Alți indici de referință estimează greșit competența agentului cu 1,6-100%.
De ce sunt fragile bazele de evaluare pentru sistemele agentice? Vezi mai jos subiectul și link-urile
1/8
1,08K
Limită superioară
Clasament
Favorite