Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Nathan Lambert
Finne ut AI @allen_ai, åpne modeller, RLHF, finjustering osv
Kontakt via e-post.
Skriver @interconnectsai
Skrev RLHF-boken
Fjellløper
Mange liker å sammenligne forskjellige klasser av modeller som "resonnement" eller "ikke-resonnement", der de i virkeligheten nå alle er trent med en god mengde av de samme forsterkende læringsteknikkene (og andre ting).
Det riktige synet er å se hver modellutgivelse på et spekter av resonneringsarbeid. Mange sier at Claude er en ikke-resonnerende modell, men de var en av de første som hadde spesielle tokens og en UX for å "tenke dypt, stå ved" (lenge før deres utvidede tenkemodus). Det samme kan gjelde for DeepSeek v3.1 som er utgitt, men ennå ikke enkel å bruke. Vi aner ikke hvor mange tokens per svar som brukes i chat-versjonene av disse modellene som standard.
APIer med eksakt tokenantall er den eneste kilden til sannhet, og de bør kommuniseres mye oftere.
Så, innenfor resonneringsmodeller er det en enorm variasjon i antall tokens som brukes. Prisen på modellene bør være den endelige vurderingen av innsats, en blanding av de totale aktive parametrene og antall tokens som brukes. Når jeg lytter til Dylan Patel på a16z-podcasten, virker det som om en av de store gevinstene til GPT-5 i tenkemodusen som jeg elsker (ligner på o3) var å få litt bedre resultater med nesten 50 % færre tokens. Jeg har følt dette litt, det er bare mer på oppgaven enn o3.
Et annet poeng er den andre generasjonen av R1, R1-0528 forbedret poengsummen ved å bruke mye mer resonnement. Qwen har vært lik. Dette er ikke alltid superverdifullt for brukeren.
På et teknisk nivå løser vi dette ved å rapportere antall tokens brukt per modell i evalueringsresultater (spesielt i forhold til peers). Problemet er at AI-lanseringer nå er ganske mainstream, og det er en nyansert teknisk detalj å kommunisere.
På forskningssiden kan du for eksempel på en meningsfull måte øke evalueringspoengene dine ved å evaluere resonnementmodellen din i en lengre kontekst enn dine jevnaldrende.
Resonnement i tokens, og noen ganger i systemmeldingen, er nå en kompleks variabel, men ikke et enkelt ja/nei i alle disse utgivelsene.
Nedenfor er et skjermbilde fra et innlegg som diskuterer dette før o1 ble utgitt (12. september i fjor) og et skjermbilde av en reddit-bruker som avdekket Claude-tenkeatferden.
Lagrer denne ranten for fremtidig referanse fordi jeg trenger å gjenta den hele tiden.


24,82K
Gleder meg til å snakke på Curve i år! Jeg mistenker at åpne modeller vil være et viktig samtaleemne igjen, og gleder meg til å høre fra folk på det utenfor mitt vanlige nettverk.

Golden Gate Institute for AI20. aug., 00:46
Hovedsøknadsvinduet for The Curve avsluttes denne fredagen, 22/8!
Vi er veldig glade for å få denne utmerkede og ~eklektiske gruppen mennesker i samme rom, og diskutere de tøffeste spørsmålene om fremtiden til AI.
Søknad + mer om hvem som skal være der nedenfor ⬇️

8,5K
Livsoppdatering: For de som ikke vet, ble jeg med i @allen_ai
for noen år siden for å jobbe med åpen kildekode AGI, og vi kommer til å gi den ut snart

will brown18. aug., 12:00
livsoppdatering: for de som ikke vet, ble jeg med i @primeintellect for noen måneder siden for å jobbe med åpen kildekode AGI. Utrolig spent på det vi bygger 🚀
90
Greg Brockman (@gdb), medgründer og president i OpenAI, om rollen til åpne modeller for deres virksomhet (~50:20 inn i den siste Latent Space Podcast):
En annen ting på et veldig praktisk nivå som vi har tenkt på med åpen kildekode-modeller, er at folk som bygger på åpen kildekode-modellen vår, på en måte bygger på teknologistabelen vår.
Hvis du er avhengig av at vi hjelper til med å forbedre modellen, at du er avhengig av at vi får det neste gjennombruddet, så betyr det at du faktisk har en avhengighet, både på en måte som er bra for virksomheten vår, men jeg tror det også er bra for landet.
At du tenker på å ha en amerikansk teknologistabel fra modellene som folk kjører direkte. Men hvordan de kommer til å samhandle på den måten vi nettopp snakket om, som faktisk lar oss bygge et helt økosystem der folk er i stand til å ha, du vet, kontroll over de delene av det som er viktige for dem, til syvende og sist bygges på disse modellene som gjenspeiler amerikanske verdier, Umm og så være i stand til å samhandle med amerikanske, du vet, forhåpentligvis brikker under, og skymodeller på backend og utførelsesmiljøer og alt det som passer sammen, det tror jeg er noe som det tilfører mye verdi, og jeg tror det gjør det mulig for amerikansk lederskap å virkelig også bety at eh vi har lederskap i våre verdier i verden.
32,87K
Topp
Rangering
Favoritter
Trendende onchain
Trendende på X
Nylig toppfinansiering
Mest lagt merke til