Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Stiamo appena iniziando a esplorare le valutazioni. Una parte significativa delle attività dei lavoratori della conoscenza non è catturata nei benchmark più popolari di oggi.
Sebbene le capacità rilevanti possano spesso essere estrapolate dalle valutazioni esistenti di programmazione e matematica, queste non rappresentano completamente la complessità delle attività del mondo reale in molti settori come legale, servizi finanziari, contabilità o consulenza.
Presto entreremo in un'era in cui affrontare questi flussi di lavoro sarà altrettanto prezioso quanto la programmazione. Questo sarà un enorme sblocco per la prossima ondata di casi d'uso degli agenti AI nell'impresa.

5 set, 07:02
spesso la capacità dei ricercatori di iterare su una capacità è limitata dalla nostra capacità di misurare quella capacità. Credo davvero che i progressi siano più limitati dalla valutazione di quanto le persone pensino.
A volte le valutazioni sembrano causali. È stato SWE-Bench a seguire la programmazione agentica, o è stata la programmazione agentica a seguire SWE-Bench?
Spesso sentiamo parlare di risolvere compiti a lungo termine (settimane, mesi), o della necessità di apprendimento continuo per l'AGI, ecc. Eppure, dove sono le valutazioni per dimostrare le carenze dei nostri modelli qui?
Mi piacerebbe che più persone lavorassero su valutazioni complete per l'AGI, valutazioni che tracciano veramente il valore economico e l'impatto, compiti di un mese, ecc.
82,26K
Principali
Ranking
Preferiti