Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vi skraper knapt i overflaten på evals. De aller fleste kunnskapsarbeideroppgaver fanges ikke opp i dagens mest populære benchmarks.
Selv om kvaliteten på funksjonene ofte kan ekstrapoleres fra eksisterende koding og matematiske evalueringer, representerer disse ikke fullt ut kompleksiteten til disse virkelige oppgavene.
Vi vil snart gå inn i en epoke hvor vi går etter arbeid innen juridiske, finansielle tjenester, produksjon, regnskap, rådgivning,
og mange andre felt med høy verdi vil være like verdsatt som koding.

5. sep., 07:02
Ofte er forskerens evne til å iterere på en evne begrenset av vår evne til å måle denne evnen. Jeg tror fremgang er mer eval-begrenset enn folk tror.
Noen ganger føles evaler kausale. fulgte SWE-Bench agentkoding, eller fulgte agentkoding SWE-bench?
Vi hører ofte om å løse virkelig langsiktige oppgaver (uker, måneder), eller kontinuerlig læring som er nødvendig for AGI osv. Men hvor er vurderingene for å bevise modellenes mangler her?
Jeg vil gjerne at flere jobber med AGI-komplette evalueringer, evalueringer som virkelig sporer økonomisk verdi og innvirkning, månedslange oppgaver osv.
4,7K
Topp
Rangering
Favoritter