Am câștigat primul loc la summitul Berkeley AgentX pentru benchmark-uri și evaluări! Felicitări echipei :)
Daniel Kang
Daniel Kang9 iul. 2025
Pe măsură ce agenții AI sunt aproape de utilizarea în lumea reală, de unde știm ce pot face de fapt? Benchmark-urile fiabile sunt critice, dar benchmark-urile agentice sunt rupte! Exemplu: WebArena marchează "45+8 minute" pe o sarcină de calcul a duratei ca fiind corect (răspuns real: "63 minute"). Alți indici de referință estimează greșit competența agentului cu 1,6-100%. De ce sunt fragile bazele de evaluare pentru sistemele agentice? Vezi mai jos subiectul și link-urile 1/8
1,08K