Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aktualizacja mapy poznawczej
Według eksperta AI Andreja Karpathy'ego, w erze pre-treningu kluczowe były dane tekstowe z internetu; w erze nadzorowanego dostrajania kluczowa była strukturalna wiedza z pytań i odpowiedzi na platformach takich jak Zhihu i Stackoverflow; w erze uczenia przez wzmocnienie kluczowe było zróżnicowane środowisko.
Skupiając się na tokenizacji aktywów AI w obszarze AI x Crypto, poza tradycyjną mocą obliczeniową, danymi, modelami i agentami, pojawiły się nowe aktywa AI, które można tokenizować: środowisko.

28 sie, 04:34
W erze wstępnego uczenia, to, co miało znaczenie, to teksty z internetu. Głównie chciałbyś mieć dużą, różnorodną, wysokiej jakości kolekcję dokumentów internetowych, z których można się uczyć.
W erze nadzorowanego dostrajania, to były rozmowy. Zatrudniani są pracownicy kontraktowi do tworzenia odpowiedzi na pytania, trochę jak to, co można zobaczyć na Stack Overflow / Quora, czy innych, ale skierowane w stronę zastosowań LLM.
Żadne z powyższych nie zniknie (moim zdaniem), ale w tej erze uczenia przez wzmocnienie, to teraz środowiska. W przeciwieństwie do powyższych, dają LLM możliwość rzeczywistej interakcji - podejmowania działań, obserwowania wyników itd. Oznacza to, że można mieć nadzieję na znacznie lepsze wyniki niż statystyczna imitacja ekspertów. Mogą być używane zarówno do treningu modelu, jak i oceny. Ale tak jak wcześniej, podstawowym problemem jest teraz potrzeba dużego, różnorodnego, wysokiej jakości zestawu środowisk, jako ćwiczeń dla LLM do praktyki.
W pewnym sensie przypomina mi to pierwszy projekt OpenAI (gym), który był dokładnie ramą mającą na celu zbudowanie dużej kolekcji środowisk w tym samym schemacie, ale to było dużo przed LLM. Tak więc środowiska były prostymi akademickimi zadaniami kontrolnymi tamtych czasów, takimi jak cartpole, ATARI itd. Hub środowisk @PrimeIntellect (i repozytorium `verifiers` na GitHubie) buduje zmodernizowaną wersję, skierowaną specjalnie na LLM, i to jest świetny wysiłek/pomysł. Zasugerowałem, że ktoś zbuduje coś podobnego na początku tego roku:
Środowiska mają tę właściwość, że gdy szkielet ramy jest na miejscu, w zasadzie społeczność/branża może równolegle działać w wielu różnych dziedzinach, co jest ekscytujące.
Ostatnia myśl - osobiście i długoterminowo, jestem optymistyczny co do środowisk i interakcji agentowych, ale pesymistyczny co do uczenia przez wzmocnienie w szczególności. Uważam, że funkcje nagrody są bardzo podejrzane, i myślę, że ludzie nie używają RL do nauki (może robią to w przypadku niektórych zadań motorycznych itd., ale nie w zadaniach rozwiązywania problemów intelektualnych). Ludzie używają różnych paradygmatów uczenia, które są znacznie potężniejsze i bardziej efektywne pod względem próbkowania i które nie zostały jeszcze odpowiednio wynalezione i skalowane, chociaż istnieją wczesne szkice i pomysły (jako jeden przykład, pomysł "uczenia się z podpowiedzi systemowych", przenosząc aktualizację na tokeny/konteksty, a nie wagi i opcjonalnie destylując do wag jako osobny proces, trochę jak sen).
2,68K
Najlepsze
Ranking
Ulubione