Jedna věc, kterou jsem zmínil, ale nebyla jsem jasná:
- Škálování současného zařízení povede k dalším zlepšením. Zejména se nezdrží.
- Ale něco důležitého bude dál chybět.
Zde jsou nejdůležitější body z dnešního podcastu Ilya Sutskever:
- superinteligence za 5–20 let
- škálování proudu se prudce zastaví; Jsme zpět u skutečného výzkumu
- Superinteligence = superrychlý nepřetržitý student, nedokončený orákulum
- modely zobecňují 100krát hůře než lidé, největší blokátor AGI
- potřebuji zcela nový ML paradigmat (mám nápady, teď je nemůžu sdílet)
- Dopad AI bude tvrdě zasáhnout, ale až po ekonomické difúzi
- průlomy historicky téměř nevyžadovaly výpočetní výkon
- SSI má dostatek cíleného výzkumného výpočtu na úspěch
- současný RL už spotřebovává více výpočetní kapacity než předtrénink
Nový výzkum Anthropic: Přirozené emergentní nesoulad způsobené hackováním odměn v produkčním RL.
"Odměňovací hackování" znamená, že se modely učí podvádět při úkolech, které dostanou během tréninku.
Naše nová studie zjistila, že důsledky hackování odměn, pokud nejsou zmírněny, mohou být velmi vážné.