Vi skraper knapt i overflaten på evals. De aller fleste kunnskapsarbeideroppgaver fanges ikke opp i dagens mest populære benchmarks. Selv om kvaliteten på funksjonene ofte kan ekstrapoleres fra eksisterende koding og matematiske evalueringer, representerer disse ikke fullt ut kompleksiteten til disse virkelige oppgavene. Vi vil snart gå inn i en epoke hvor vi går etter arbeid innen juridiske, finansielle tjenester, produksjon, regnskap, rådgivning, og mange andre felt med høy verdi vil være like verdsatt som koding.
will depue
will depue5. sep., 07:02
Ofte er forskerens evne til å iterere på en evne begrenset av vår evne til å måle denne evnen. Jeg tror fremgang er mer eval-begrenset enn folk tror. Noen ganger føles evaler kausale. fulgte SWE-Bench agentkoding, eller fulgte agentkoding SWE-bench? Vi hører ofte om å løse virkelig langsiktige oppgaver (uker, måneder), eller kontinuerlig læring som er nødvendig for AGI osv. Men hvor er vurderingene for å bevise modellenes mangler her? Jeg vil gjerne at flere jobber med AGI-komplette evalueringer, evalueringer som virkelig sporer økonomisk verdi og innvirkning, månedslange oppgaver osv.
4,7K