Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vi skrapar knappt på ytan på evals. En betydande del av kunskapsarbetarnas uppgifter fångas inte upp i dagens mest populära riktmärken.
Även om relevanta funktioner ofta kan extrapoleras från befintliga kodnings- och matematikutvärderingar, representerar dessa inte fullt ut komplexiteten i verkliga uppgifter inom många områden som juridik, finansiella tjänster, redovisning eller konsultverksamhet.
Vi kommer snart att gå in i en era där det kommer att vara lika uppskattat att följa dessa arbetsflöden som att koda. Detta kommer att bli en enorm upplåsning för nästa våg av användningsfall för AI-agenter i företaget.

5 sep. 07:02
Ofta begränsas forskares förmåga att iterera på en förmåga av vår förmåga att mäta den förmågan. Jag tror att framstegen är mer begränsade än vad folk tror.
Ibland känns evals kausala. följde SWE-Bench agentic coding, eller följde agentic coding SWE-bench?
Vi hör ofta talas om att lösa uppgifter med riktigt lång horisont (veckor, månader), eller att det behövs kontinuerligt lärande för AGI, etc. Men var finns evalerna för att bevisa våra modellers brister här?
Jag skulle gärna se att fler människor arbetade med AGI-kompletta utvärderingar, utvärderingar som verkligen spårar ekonomiskt värde och påverkan, månadslånga uppgifter, etc.
82,27K
Topp
Rankning
Favoriter