Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aggiornamento della mappa cognitiva
Secondo il grande esperto di AI Andrej Karpathy, nell'era del pre-addestramento, la chiave sono i dati testuali di Internet; nell'era del fine-tuning supervisionato, la chiave è la conoscenza strutturata delle domande e risposte di Zhihu e Stackoverflow; nell'era dell'apprendimento rinforzato, la chiave è un ambiente diversificato.
Focalizzandosi sulla tokenizzazione degli asset AI nel settore AI x Crypto, oltre alla tradizionale potenza di calcolo, dati, modelli e agenti, ci sono nuovi asset AI tokenizzabili: l'ambiente.

19 ore fa
Nell'era del pretraining, ciò che contava era il testo di internet. Vorresti principalmente una grande, diversificata e di alta qualità collezione di documenti internet da cui apprendere.
Nell'era del fine-tuning supervisionato, erano le conversazioni. Vengono assunti lavoratori a contratto per creare risposte a domande, un po' come ciò che vedresti su Stack Overflow / Quora, o simili, ma orientati verso casi d'uso di LLM.
Nessuno dei due sopra menzionati sta per scomparire (a mio avviso), ma in quest'era di apprendimento per rinforzo, ora sono gli ambienti. A differenza di quanto sopra, offrono all'LLM l'opportunità di interagire realmente - compiere azioni, vedere risultati, ecc. Questo significa che puoi sperare di fare molto meglio dell'imitazione esperta statistica. E possono essere utilizzati sia per l'addestramento che per la valutazione del modello. Ma proprio come prima, il problema centrale ora è la necessità di un grande, diversificato e di alta qualità set di ambienti, come esercizi per l'LLM su cui praticare.
In un certo senso, mi ricorda il primo progetto di OpenAI (gym), che era esattamente un framework che sperava di costruire una grande collezione di ambienti nello stesso schema, ma questo era molto prima degli LLM. Quindi gli ambienti erano semplici compiti di controllo accademico dell'epoca, come cartpole, ATARI, ecc. L'hub degli ambienti @PrimeIntellect (e il repo `verifiers` su GitHub) costruisce la versione modernizzata specificamente mirata agli LLM, ed è un grande sforzo/idea. Ho proposto che qualcuno costruisse qualcosa di simile all'inizio di quest'anno:
Gli ambienti hanno la proprietà che, una volta che lo scheletro del framework è in atto, in linea di principio la comunità / industria può parallelizzare attraverso molti domini diversi, il che è entusiasmante.
Pensiero finale - personalmente e a lungo termine, sono ottimista sugli ambienti e le interazioni agentiche, ma sono pessimista sull'apprendimento per rinforzo specificamente. Penso che le funzioni di ricompensa siano molto sospette, e penso che gli esseri umani non usino l'RL per apprendere (forse lo fanno per alcuni compiti motori, ecc., ma non per compiti di problem solving intellettuale). Gli esseri umani usano paradigmi di apprendimento diversi che sono significativamente più potenti ed efficienti in termini di campionamento e che non sono stati ancora inventati e scalati correttamente, anche se esistono schizzi e idee iniziali (come solo un esempio, l'idea di "apprendimento tramite prompt di sistema", spostando l'aggiornamento su token/contesti e non pesi e distillando facoltativamente ai pesi come processo separato un po' come fa il sonno).
2,55K
Principali
Ranking
Preferiti