Ofte er forskerens evne til å iterere på en evne begrenset av vår evne til å måle denne evnen. Jeg tror fremgang er mer eval-begrenset enn folk tror. Noen ganger føles evaler kausale. fulgte SWE-Bench agentkoding, eller fulgte agentkoding SWE-bench? Vi hører ofte om å løse virkelig langsiktige oppgaver (uker, måneder), eller kontinuerlig læring som er nødvendig for AGI osv. Men hvor er vurderingene for å bevise modellenes mangler her? Jeg vil gjerne at flere jobber med AGI-komplette evalueringer, evalueringer som virkelig sporer økonomisk verdi og innvirkning, månedslange oppgaver osv.
149,12K