Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dwarkesh Patel
Zajímalo by mě, co by se stalo, kdybyste zopakovali studii METR AI uplift, ale pro všednější nástroje.
Dokončete například tuto žádost o přijetí změn, ale není povolen žádný přístup k internetu.
Nepřekvapilo by mě, kdyby se produktivita zlepšila (stejně jako se to stalo bez LLM)
Pokud ano, možná studie vypovídá více o tom, jak snadné je rozptýlit se (a jak pokud máte jinou možnost, odmítnete věnovat kognitivní úsilí jádru problému), než konkrétně o asistentech kódování LLM.

METR11. 7. 2025
Provedli jsme randomizovanou kontrolovanou studii, abychom zjistili, jak moc kódovací nástroje AI urychlují zkušené vývojáře open-source.
Výsledky nás překvapily: Vývojáři si mysleli, že jsou s nástroji AI o 20 % rychlejší, ale ve skutečnosti byli o 19 % pomalejší, když k AI měli, než když ji neměli.

38,46K
Z příspěvku @tobyordoxford.
Existují dobré veřejné důkazy o tom, jak široké jsou dovednosti, které se LLM učí od RL?
Jaký je například nejpřesvědčivější příklad transferového učení v RL? Kde výcvik v určitém prostředí vede k lepším schopnostem v některých zcela odlišných oblastech?
Vím, že zřejmou odpovědí by zde mohlo být ukázat na GPT 5. Jakkoli je to lepší v obecném uvažování než GPT 4o, je to pravděpodobně kvůli RL.


Dwarkesh Patel20. 9. 01:44
Zajímavý příspěvek. Bity/FLOP z RL jsou o 3-6 OOM nižší než před trénováním.
I když @tamaybes poukázal na to, že kousky z RL se mohou zaměřit na konkrétní dovednosti, které se chcete naučit. Zatímco předtrénink jen rozděluje tyto bity přes učení náhodných ASCII vztahů a milionu dalších irelevantních věcí.
Kromě toho, pro každý daný úkol existuje spousta rozhodnutí, na jejichž konkrétním provedení příliš nezáleží, a pár, které opravdu chcete zvládnout. RL může soustředit signál na to, aby se naučil, jak nepokazit kritické stavy v epizodě, na rozdíl od toho, aby byl každý jednotlivý token správný. Užitečný obrázek z jedné ze starých přednášek @svlevine (B je kritický stav):
Myslím, že to stále souvisí s tím, že RL je mnohem méně informačně hustá než předtrénink. A souhlasím s Tobym, že zisk inteligence na FLOP RL env tréninku bude menší, než mnozí předpokládají.
Pracuji na příspěvku o tom s @EgeErdil2, @MatthewJBar a @tamaybes. Doufejme, že to budeme moci publikovat příští týden.


51,59K
Top
Hodnocení
Oblíbené