Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Stiamo appena grattando la superficie delle valutazioni. La stragrande maggioranza delle attività dei lavoratori della conoscenza non è catturata nei benchmark più popolari di oggi.
Sebbene la qualità delle capacità possa spesso essere estrapolata dalle valutazioni esistenti di codifica e matematica, queste non rappresentano completamente la complessità di queste attività nel mondo reale.
Presto entreremo in un'era in cui cercare lavoro nei settori legale, dei servizi finanziari, della produzione, della contabilità, della consulenza,
e in molti altri campi ad alto valore sarà considerato prezioso quanto la programmazione.

5 set, 07:02
spesso la capacità dei ricercatori di iterare su una capacità è limitata dalla nostra capacità di misurare quella capacità. Credo davvero che i progressi siano più limitati dalla valutazione di quanto le persone pensino.
A volte le valutazioni sembrano causali. È stato SWE-Bench a seguire la programmazione agentica, o è stata la programmazione agentica a seguire SWE-Bench?
Spesso sentiamo parlare di risolvere compiti a lungo termine (settimane, mesi), o della necessità di apprendimento continuo per l'AGI, ecc. Eppure, dove sono le valutazioni per dimostrare le carenze dei nostri modelli qui?
Mi piacerebbe che più persone lavorassero su valutazioni complete per l'AGI, valutazioni che tracciano veramente il valore economico e l'impatto, compiti di un mese, ecc.
4,7K
Principali
Ranking
Preferiti