Vi skraper knapt i overflaten på evals. En betydelig del av kunnskapsarbeiderens oppgaver fanges ikke opp i dagens mest populære benchmarks. Selv om relevante funksjoner ofte kan ekstrapoleres fra eksisterende koding og matematikk, representerer disse ikke fullt ut kompleksiteten til virkelige oppgaver på mange felt som juridiske, finansielle tjenester, regnskap eller rådgivning. Vi vil snart gå inn i en epoke der det å gå etter disse arbeidsflytene vil være like verdsatt som koding. Dette kommer til å være en enorm opplåsing for den neste bølgen av AI-agentbrukstilfeller i bedriften.
will depue
will depue5. sep., 07:02
Ofte er forskerens evne til å iterere på en evne begrenset av vår evne til å måle denne evnen. Jeg tror fremgang er mer eval-begrenset enn folk tror. Noen ganger føles evaler kausale. fulgte SWE-Bench agentkoding, eller fulgte agentkoding SWE-bench? Vi hører ofte om å løse virkelig langsiktige oppgaver (uker, måneder), eller kontinuerlig læring som er nødvendig for AGI osv. Men hvor er vurderingene for å bevise modellenes mangler her? Jeg vil gjerne at flere jobber med AGI-komplette evalueringer, evalueringer som virkelig sporer økonomisk verdi og innvirkning, månedslange oppgaver osv.
82,26K