Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
spesso la capacità dei ricercatori di iterare su una capacità è limitata dalla nostra capacità di misurare quella capacità. Credo davvero che i progressi siano più limitati dalla valutazione di quanto le persone pensino.
A volte le valutazioni sembrano causali. È stato SWE-Bench a seguire la programmazione agentica, o è stata la programmazione agentica a seguire SWE-Bench?
Spesso sentiamo parlare di risolvere compiti a lungo termine (settimane, mesi), o della necessità di apprendimento continuo per l'AGI, ecc. Eppure, dove sono le valutazioni per dimostrare le carenze dei nostri modelli qui?
Mi piacerebbe che più persone lavorassero su valutazioni complete per l'AGI, valutazioni che tracciano veramente il valore economico e l'impatto, compiti di un mese, ecc.
149,11K
Principali
Ranking
Preferiti