Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dwarkesh Patel
Zastanawiam się, co by się stało, gdybyś powtórzył badanie METR AI dotyczące podnoszenia wydajności, ale dla bardziej przyziemnych narzędzi.
Na przykład, dokończ to zgłoszenie, ale bez dostępu do internetu.
Nie zdziwiłbym się, gdyby wydajność wzrosła (tak jak to miało miejsce bez LLM-ów).
Jeśli tak, to może badanie mówi więcej o tym, jak łatwo można się rozproszyć (i jak, dopóki masz jakąkolwiek inną opcję, odmówisz poświęcenia wysiłku poznawczego na sedno problemu) niż o asystentach kodowania LLM w szczególności.

METR11 lip 2025
We ran a randomized controlled trial to see how much AI coding tools speed up experienced open-source developers.
The results surprised us: Developers thought they were 20% faster with AI tools, but they were actually 19% slower when they had access to AI than when they didn't.

37,5K
Z posta @tobyordoxford.
Czy istnieją dobre publiczne dowody na to, jak szerokie umiejętności LLM-y uczą się z RL?
Na przykład, jaki jest najbardziej przekonujący przykład transferu wiedzy w RL? Gdzie trening w konkretnym środowisku prowadzi do lepszych możliwości w dość odmiennych dziedzinach?
Wiem, że oczywistą odpowiedzią może być wskazanie na GPT 5. Jednak to, jak bardzo lepiej radzi sobie z ogólnym myśleniem w porównaniu do GPT 4, prawdopodobnie wynika z RL.


Dwarkesh Patel20 wrz, 01:44
Interesujący post. Bits/FLOP z RL są o 3-6 OOMs niższe niż w przypadku wstępnego szkolenia.
Chociaż @tamaybes zwrócił uwagę, że bity z RL mogą celować w konkretne umiejętności, które chcesz nauczyć się. Natomiast wstępne szkolenie po prostu rozkłada te bity na naukę losowych relacji ASCII i miliona innych nieistotnych rzeczy.
Ponadto, w przypadku dowolnego zadania, istnieje wiele decyzji, których konkretna realizacja nie ma dużego znaczenia, oraz kilka, które naprawdę chcesz dopracować. RL może skoncentrować sygnał na nauce, jak nie zepsuć krytycznych stanów w odcinku, w przeciwieństwie do uzyskania poprawności każdego pojedynczego tokena. Przydatny obrazek z jednego z dawnych wykładów @svlevine'a (B to stan krytyczny):
Myślę, że to wciąż prowadzi do wniosku, że RL jest znacznie mniej gęsty informacyjnie niż wstępne szkolenie. I zgadzam się z Tobym, że zysk inteligencji na FLOP w szkoleniu środowiska RL będzie mniejszy niż wielu zakłada.


51,39K
Najlepsze
Ranking
Ulubione