Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Uppdateringar av kognitiva diagram
Enligt AI-tjuren Andrej Karpathy är nyckeln textdata på Internet under tiden före träning; I en tid av övervakning av finjustering är nyckeln den strukturerade kunskapen om Zhihu och Stackflows Q&A-stil; I en tid av intensivt lärande är nyckeln en mångsidig miljö.
AI x Crypto-spåret, som fokuserar på tokenisering av AI-tillgångar, har en ny tokeniserbar AI-tillgång: miljön utöver traditionell datorkraft, data, modeller och agenter

20 timmar sedan
I förträningens tidevarv var det internettext som gällde. Du vill i första hand ha en stor, mångsidig samling av internetdokument av hög kvalitet att lära dig av.
I en tid av övervakad finjustering var det samtal. Kontraktsarbetare anställs för att skapa svar på frågor, lite som vad du skulle se på Stack Overflow / Quora, eller etc., men inriktat på LLM-användningsfall.
Ingen av de två ovanstående kommer att försvinna (imo), men i denna era av förstärkningsinlärning är det nu miljöer. Till skillnad från ovanstående ger de LLM en möjlighet att faktiskt interagera - vidta åtgärder, se resultat etc. Det betyder att du kan hoppas på att göra mycket bättre än statistisk expertimitation. Och de kan användas både för modellträning och utvärdering. Men precis som tidigare är kärnproblemet nu att behöva en stor, mångsidig, högkvalitativ uppsättning miljöer, som övningar för LLM att öva mot.
På något sätt påminns jag om OpenAI:s allra första projekt (gym), som var exakt ett ramverk i hopp om att bygga en stor samling miljöer i samma schema, men det här var långt före LLM:er. Så miljöerna var enkla akademiska kontrolluppgifter på den tiden, som cartpole, ATARI, etc. Hubben för @PrimeIntellect miljöer (och lagringsplatsen "verifierare" på GitHub) bygger den moderniserade versionen specifikt riktad mot LLM:er, och det är en stor ansträngning/idé. Jag pitchade att någon skulle bygga något liknande tidigare i år:
Miljöer har den egenskapen att när stommen till ramverket väl är på plats så kan i princip communityn/branschen parallellisera över många olika domäner, vilket är spännande.
Slutlig tanke - personligen och på lång sikt är jag hausse på miljöer och agentiska interaktioner men jag är baisse på förstärkningsinlärning specifikt. Jag tror att belöningsfunktioner är superbra, och jag tror att människor inte använder RL för att lära sig (kanske gör de det för vissa motoriska uppgifter etc, men inte intellektuella problemlösningsuppgifter). Människor använder olika inlärningsparadigm som är betydligt kraftfullare och mer proveffektiva och som inte har uppfunnits och skalats ordentligt ännu, även om tidiga skisser och idéer finns (som bara ett exempel, idén om "systemsnabb inlärning", att flytta uppdateringen till tokens/kontexter inte vikter och eventuellt destillera till vikter som en separat process lite som sömn gör).
2,55K
Topp
Rankning
Favoriter