Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dwarkesh Patel
"Unul dintre lucrurile foarte confuze la modele acum: cum să împaci faptul că se descurcă atât de bine la evaluări.
Și te uiți la evaluări și spui: "Sunt evaluări destul de grele."
Dar impactul economic pare să fie dramatic în urmă.
Există [o posibilă] explicație. Pe vremea când oamenii făceau pre-antrenament, întrebarea despre ce date să se antreneze a fost răspunsă, pentru că acel răspuns era totul. Deci nu trebuie să te gândești dacă vor fi aceste date sau altele.
Când oamenii fac antrenament RL, spun: "Ok, vrem să avem acest tip de antrenament RL pentru chestia asta și un alt tip de pregătire RL pentru chestia asta."
Spui: "Hei, mi-ar plăcea ca modelul nostru să meargă foarte bine când îl lansăm. Vreau ca evaluările să arate grozav. Ce antrenament RL ar putea ajuta la această sarcină?"
Dacă combini asta cu generalizarea faptului că modelele sunt de fapt inadecvate, asta ar putea explica multe dintre lucrurile pe care le vedem, această deconectare între performanța evaluării și performanța reală din lumea reală."

Dwarkesh Patel26 nov., 01:29
Episodul @ilyasut
0:00:00 – Explicarea deformării modelului
0:09:39 - Emoții și funcții de valoare
0:18:49 – Ce scalăm?
0:25:13 – De ce oamenii generalizează mai bine decât modelele
0:35:45 – Superinteligență directă
0:46:47 – Modelul SSI va învăța din implementare
0:55:07 – Aliniere
1:18:13 – "Suntem clar o companie de epocă a cercetării"
1:29:23 – Auto-joc și multi-agent
1:32:42 – Gust de cercetare
Caută Dwarkesh Podcast pe YouTube, Apple Podcasts sau Spotify. Delecta!
361,84K
"Există cu mult mai multe companii decât idei.
Calculul este suficient de mare încât să nu fie evident că ai nevoie de mult mai mult calcul pentru a demonstra o idee.
AlexNet a fost construit pe 2 plăci video. Transformatorul a fost construit pe 8 până la 64 de plăci video. Adică, ce, 2 plăci video de azi? Ai putea argumenta că raționamentul O1 nu era cel mai solicitant lucru de calcul din lume.
Pentru cercetare, cu siguranță ai nevoie de un anumit cantitate de calcul, dar nu este deloc evident că ai nevoie de cea mai mare cantitate de calcul.
Dacă toată lumea se află în aceeași paradigmă, atunci calculul devine unul dintre marii diferențiatori."
@ilyasut

Dwarkesh Patel26 nov., 01:29
Episodul @ilyasut
0:00:00 – Explicarea deformării modelului
0:09:39 - Emoții și funcții de valoare
0:18:49 – Ce scalăm?
0:25:13 – De ce oamenii generalizează mai bine decât modelele
0:35:45 – Superinteligență directă
0:46:47 – Modelul SSI va învăța din implementare
0:55:07 – Aliniere
1:18:13 – "Suntem clar o companie de epocă a cercetării"
1:29:23 – Auto-joc și multi-agent
1:32:42 – Gust de cercetare
Caută Dwarkesh Podcast pe YouTube, Apple Podcasts sau Spotify. Delecta!
169,62K
Limită superioară
Clasament
Favorite
