Vi vann första plats på Berkeley AgentX summit för benchmarks och utvärderingar! Grattis till teamet :)
Daniel Kang
Daniel Kang9 juli 2025
Hur vet vi vad AI-agenter faktiskt kan göra när de används i den verkliga världen? Tillförlitliga riktmärken är avgörande, men agentiska riktmärken är trasiga! Exempel: WebArena markerar "45+8 minuter" på en varaktighetsberäkningsuppgift som korrekt (riktigt svar: "63 minuter"). Andra riktmärken missbedömer agenternas kompetens med 1,6-100 %. Varför är utvärderingsgrunderna för agentiska system bräckliga? Se nedan för tråd och länkar 1/8
1,09K