Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
vaak is het vermogen van onderzoekers om te itereren op een capaciteit beperkt door ons vermogen om die capaciteit te meten. Ik geloof echt dat vooruitgang meer evaluatie-beperkt is dan mensen denken.
soms voelen evaluaties causaal aan. Volgde SWE-Bench agentic coding, of volgde agentic coding SWE-Bench?
we horen vaak over het oplossen van echt lange horizon taken (weken, maanden), of dat continue leren nodig is voor AGI, enz. maar waar zijn de evaluaties om de tekortkomingen van onze modellen hier te bewijzen?
ik zou willen dat meer mensen werken aan AGI-volledige evaluaties, evaluaties die echt economische waarde en impact volgen, taken van een maand, enz.
149,14K
Boven
Positie
Favorieten