vaak is het vermogen van onderzoekers om te itereren op een capaciteit beperkt door ons vermogen om die capaciteit te meten. Ik geloof echt dat vooruitgang meer evaluatie-beperkt is dan mensen denken. soms voelen evaluaties causaal aan. Volgde SWE-Bench agentic coding, of volgde agentic coding SWE-Bench? we horen vaak over het oplossen van echt lange horizon taken (weken, maanden), of dat continue leren nodig is voor AGI, enz. maar waar zijn de evaluaties om de tekortkomingen van onze modellen hier te bewijzen? ik zou willen dat meer mensen werken aan AGI-volledige evaluaties, evaluaties die echt economische waarde en impact volgen, taken van een maand, enz.
149,14K