Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mange liker å sammenligne forskjellige klasser av modeller som "resonnement" eller "ikke-resonnement", der de i virkeligheten nå alle er trent med en god mengde av de samme forsterkende læringsteknikkene (og andre ting).
Det riktige synet er å se hver modellutgivelse på et spekter av resonneringsarbeid. Mange sier at Claude er en ikke-resonnerende modell, men de var en av de første som hadde spesielle tokens og en UX for å "tenke dypt, stå ved" (lenge før deres utvidede tenkemodus). Det samme kan gjelde for DeepSeek v3.1 som er utgitt, men ennå ikke enkel å bruke. Vi aner ikke hvor mange tokens per svar som brukes i chat-versjonene av disse modellene som standard.
APIer med eksakt tokenantall er den eneste kilden til sannhet, og de bør kommuniseres mye oftere.
Så, innenfor resonneringsmodeller er det en enorm variasjon i antall tokens som brukes. Prisen på modellene bør være den endelige vurderingen av innsats, en blanding av de totale aktive parametrene og antall tokens som brukes. Når jeg lytter til Dylan Patel på a16z-podcasten, virker det som om en av de store gevinstene til GPT-5 i tenkemodusen som jeg elsker (ligner på o3) var å få litt bedre resultater med nesten 50 % færre tokens. Jeg har følt dette litt, det er bare mer på oppgaven enn o3.
Et annet poeng er den andre generasjonen av R1, R1-0528 forbedret poengsummen ved å bruke mye mer resonnement. Qwen har vært lik. Dette er ikke alltid superverdifullt for brukeren.
På et teknisk nivå løser vi dette ved å rapportere antall tokens brukt per modell i evalueringsresultater (spesielt i forhold til peers). Problemet er at AI-lanseringer nå er ganske mainstream, og det er en nyansert teknisk detalj å kommunisere.
På forskningssiden kan du for eksempel på en meningsfull måte øke evalueringspoengene dine ved å evaluere resonnementmodellen din i en lengre kontekst enn dine jevnaldrende.
Resonnement i tokens, og noen ganger i systemmeldingen, er nå en kompleks variabel, men ikke et enkelt ja/nei i alle disse utgivelsene.
Nedenfor er et skjermbilde fra et innlegg som diskuterer dette før o1 ble utgitt (12. september i fjor) og et skjermbilde av en reddit-bruker som avdekket Claude-tenkeatferden.
Lagrer denne ranten for fremtidig referanse fordi jeg trenger å gjenta den hele tiden.


24,99K
Topp
Rangering
Favoritter