Abbiamo vinto il primo posto al summit Berkeley AgentX per il track di benchmark e valutazioni! Congratulazioni al team :)
Daniel Kang
Daniel Kang9 lug 2025
Poiché gli agenti di intelligenza artificiale vengono utilizzati quasi nel mondo reale, come facciamo a sapere cosa possono effettivamente fare? I benchmark affidabili sono fondamentali, ma i benchmark agentici non funzionano! Esempio: WebArena contrassegna "45+8 minuti" su un'attività di calcolo della durata come corretto (risposta reale: "63 minuti"). Altri benchmark stimano erroneamente la competenza dell'agente dell'1,6-100%. Perché le basi di valutazione per i sistemi agentici sono fragili? Vedi sotto per thread e collegamenti 1/8
995