Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vi vann första plats på Berkeley AgentX summit för benchmarks och utvärderingar! Grattis till teamet :)


9 juli 2025
Hur vet vi vad AI-agenter faktiskt kan göra när de används i den verkliga världen? Tillförlitliga riktmärken är avgörande, men agentiska riktmärken är trasiga!
Exempel: WebArena markerar "45+8 minuter" på en varaktighetsberäkningsuppgift som korrekt (riktigt svar: "63 minuter"). Andra riktmärken missbedömer agenternas kompetens med 1,6-100 %.
Varför är utvärderingsgrunderna för agentiska system bräckliga? Se nedan för tråd och länkar
1/8
1,09K
Topp
Rankning
Favoriter