Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Veel mensen vergelijken verschillende klassen modellen zoals "redenerend" of "niet-redenerend", terwijl ze in werkelijkheid nu allemaal zijn getraind met een goede hoeveelheid van dezelfde technieken voor versterkend leren (en andere dingen).
De juiste kijk is om elke modelrelease te zien op een spectrum van redeneringsinspanningen. Velen zeggen dat Claude een niet-redenerend model is, maar zij waren een van de eersten die speciale tokens en een UX voor "diep nadenken, even wachten" hadden (lang voordat hun uitgebreide denkmode kwam). Hetzelfde zou waar kunnen zijn voor DeepSeek v3.1, dat is uitgebracht maar nog niet gemakkelijk te gebruiken. We hebben geen idee hoeveel tokens per reactie worden gebruikt in de chatversies van deze modellen standaard.
API's met exacte tokenaantallen zijn de enige bron van waarheid en ze zouden veel vaker gecommuniceerd moeten worden.
Binnen redeneringsmodellen is er een enorme variatie in het aantal gebruikte tokens. De prijs van de modellen zou de laatste overweging van inspanning moeten zijn, een mix van het totale aantal actieve parameters en het aantal gebruikte tokens. Luisterend naar Dylan Patel op de a16z-podcast lijkt het erop dat een van de grote overwinningen van GPT-5 in de denkmode die ik leuk vind (vergelijkbaar met o3) was om iets betere resultaten te behalen met bijna 50% minder tokens. Ik heb dit een beetje gevoeld, het is gewoon meer op taak dan o3.
Een ander punt is dat de tweede generatie van R1, R1-0528, de scores verbeterde door veel meer redenering te gebruiken. Qwen is vergelijkbaar geweest. Dit is niet altijd super waardevol voor de gebruiker.
Op technisch niveau lossen we dit op door het aantal gebruikte tokens per model in evaluatieresultaten te rapporteren (vooral ten opzichte van peers). Het probleem is dat AI-lanceringen nu vrij mainstream zijn en het een genuanceerd technisch detail is om te communiceren.
Aan de onderzoekszijde, bijvoorbeeld, kun je je evaluatiescores betekenisvol verhogen door je redeneringsmodel te evalueren in een langere context dan je peers.
Redeneringsinspanningen in tokens, en soms in de systeemprompt, zijn nu een complexe variabele maar niet een simpele ja/nee in al deze releases.
Hieronder staat een screenshot van een post die dit bespreekt voordat o1 werd uitgebracht (12 september van vorig jaar) en een screenshot van een Reddit-gebruiker die het denkgedrag van Claude ontdekte.
Ik bewaar deze rant voor toekomstige referentie omdat ik het de hele tijd moet herhalen.


25,18K
Boven
Positie
Favorieten