Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Abia zgâriem suprafața evaluărilor. Marea majoritate a sarcinilor lucrătorilor nu sunt incluse în cele mai populare benchmark-uri de astăzi.
În timp ce calitatea capabilităților poate fi adesea extrapolată din evaluările de codare și matematică existente, acestea nu reprezintă pe deplin complexitatea acestor sarcini din lumea reală.
Vom intra în curând într-o eră în care căutarea muncii în domeniul juridic, al serviciilor financiare, al producției, al contabilității, al consultanței,
și multe alte domenii de mare valoare vor fi la fel de apreciate ca codarea.

5 sept., 07:02
Adesea, capacitatea cercetătorilor de a itera asupra unei capabilități este limitată de capacitatea noastră de a măsura acea capacitate. Cred că progresul este mai limitat de evaluare decât cred oamenii.
uneori evaluările se simt cauzale. SWE-Bench a urmat codificarea agentică sau codificarea agentică a urmat SWE-bench?
Auzim adesea despre rezolvarea sarcinilor cu orizont foarte lung (săptămâni, luni) sau despre învățarea continuă necesară pentru AGI etc. Totuși, unde sunt evaluările pentru a dovedi deficiențele modelelor noastre aici?
Mi-ar plăcea ca mai mulți oameni să lucreze la evaluări complete AGI, evaluări care urmăresc cu adevărat valoarea și impactul economic, sarcini de o lună etc.
4,7K
Limită superioară
Clasament
Favorite