spesso la capacità dei ricercatori di iterare su una capacità è limitata dalla nostra capacità di misurare quella capacità. Credo davvero che i progressi siano più limitati dalla valutazione di quanto le persone pensino. A volte le valutazioni sembrano causali. È stato SWE-Bench a seguire la programmazione agentica, o è stata la programmazione agentica a seguire SWE-Bench? Spesso sentiamo parlare di risolvere compiti a lungo termine (settimane, mesi), o della necessità di apprendimento continuo per l'AGI, ecc. Eppure, dove sono le valutazioni per dimostrare le carenze dei nostri modelli qui? Mi piacerebbe che più persone lavorassero su valutazioni complete per l'AGI, valutazioni che tracciano veramente il valore economico e l'impatto, compiti di un mese, ecc.
149,11K