Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Viele Menschen vergleichen gerne verschiedene Klassen von Modellen wie "denkenden" oder "nicht-denkenden", während sie in Wirklichkeit jetzt alle mit einer guten Menge der gleichen Techniken des verstärkenden Lernens (und anderen Dingen) trainiert werden.
Die richtige Sichtweise ist, jede Modellveröffentlichung auf einem Spektrum des Denkaufwands zu betrachten. Viele sagen, Claude sei ein nicht-denkendes Modell, doch sie waren eines der ersten, die spezielle Tokens und eine Benutzererfahrung für "tiefes Denken, bitte warten" hatten (lange bevor ihr erweiterter Denkmodus kam). Das Gleiche könnte für DeepSeek v3.1 gelten, das veröffentlicht wurde, aber noch nicht einfach zu verwenden ist. Wir haben keine Ahnung, wie viele Tokens pro Antwort in den Chat-Versionen dieser Modelle standardmäßig verwendet werden.
APIs mit genauen Token-Zählungen sind die einzige Wahrheit und sollten viel häufiger kommuniziert werden.
Innerhalb der denkenden Modelle gibt es dann eine enorme Varianz in der Anzahl der verwendeten Tokens. Der Preis der Modelle sollte die letzte Überlegung des Aufwands sein, eine Mischung aus den insgesamt aktiven Parametern und der Anzahl der verwendeten Tokens. Wenn man Dylan Patel im a16z-Podcast zuhört, scheint es, dass einer der großen Gewinne von GPT-5 im Denkmodus, den ich liebe (ähnlich wie o3), darin bestand, mit fast 50 % weniger Tokens etwas bessere Ergebnisse zu erzielen. Ich habe das ein wenig gespürt, es ist einfach mehr auf die Aufgabe fokussiert als o3.
Ein weiterer Punkt ist die zweite Generation von R1, R1-0528, die die Ergebnisse durch viel mehr Denken verbessert hat. Qwen war ähnlich. Das ist nicht immer super wertvoll für den Benutzer.
Auf technischer Ebene lösen wir dies, indem wir die Anzahl der pro Modell in den Evaluierungsergebnissen verwendeten Tokens berichten (insbesondere im Vergleich zu den Mitbewerbern). Das Problem ist, dass KI-Starts jetzt ziemlich mainstream sind und es ein nuanciertes technisches Detail ist, das zu kommunizieren.
Auf der Forschungsseite kann man beispielsweise seine Evaluierungsergebnisse erheblich steigern, indem man sein Denkmodell in einem längeren Kontext als seine Mitbewerber evaluiert.
Der Denkaufwand in Tokens und manchmal im Systemprompt ist jetzt eine komplexe Variable, aber kein einfaches Ja/Nein in all diesen Veröffentlichungen.
Unten ist ein Screenshot aus einem Beitrag, der dies vor der Veröffentlichung von o1 (12. September letzten Jahres) diskutiert, und ein Screenshot eines Reddit-Nutzers, der das Denkverhalten von Claude aufdeckte.
Ich speichere diesen Rant zur späteren Referenz, weil ich ihn ständig wiederholen muss.


25,01K
Top
Ranking
Favoriten