Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Adesea, capacitatea cercetătorilor de a itera asupra unei capabilități este limitată de capacitatea noastră de a măsura acea capacitate. Cred că progresul este mai limitat de evaluare decât cred oamenii.
uneori evaluările se simt cauzale. SWE-Bench a urmat codificarea agentică sau codificarea agentică a urmat SWE-bench?
Auzim adesea despre rezolvarea sarcinilor cu orizont foarte lung (săptămâni, luni) sau despre învățarea continuă necesară pentru AGI etc. Totuși, unde sunt evaluările pentru a dovedi deficiențele modelelor noastre aici?
Mi-ar plăcea ca mai mulți oameni să lucreze la evaluări complete AGI, evaluări care urmăresc cu adevărat valoarea și impactul economic, sarcini de o lună etc.
149,14K
Limită superioară
Clasament
Favorite