Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ofte er forskerens evne til å iterere på en evne begrenset av vår evne til å måle denne evnen. Jeg tror fremgang er mer eval-begrenset enn folk tror.
Noen ganger føles evaler kausale. fulgte SWE-Bench agentkoding, eller fulgte agentkoding SWE-bench?
Vi hører ofte om å løse virkelig langsiktige oppgaver (uker, måneder), eller kontinuerlig læring som er nødvendig for AGI osv. Men hvor er vurderingene for å bevise modellenes mangler her?
Jeg vil gjerne at flere jobber med AGI-komplette evalueringer, evalueringer som virkelig sporer økonomisk verdi og innvirkning, månedslange oppgaver osv.
149,12K
Topp
Rangering
Favoritter