Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Beaucoup de gens aiment comparer différentes classes de modèles comme "raisonnement" ou "non-raisonnement" alors qu'en réalité, ils sont tous maintenant entraînés avec une bonne quantité des mêmes techniques d'apprentissage par renforcement (et d'autres choses).
La bonne perspective est de voir chaque sortie de modèle sur un spectre d'effort de raisonnement. Beaucoup disent que Claude est un modèle non raisonneur, pourtant ils ont été parmi les premiers à avoir des tokens spéciaux et une UX pour "penser profondément, patienter" (bien avant leur mode de pensée prolongée). Il en pourrait être de même pour DeepSeek v3.1 qui est sorti mais pas encore facile à utiliser. Nous n'avons aucune idée du nombre de tokens par réponse utilisés dans les versions de chat de ces modèles par défaut.
Les API avec des comptes de tokens exacts sont la seule source de vérité et elles devraient être communiquées beaucoup plus fréquemment.
Ensuite, au sein des modèles de raisonnement, il y a une énorme variance dans le nombre de tokens utilisés. Le prix des modèles devrait être la considération finale de l'effort, un mélange du nombre total de paramètres actifs et du nombre de tokens utilisés. En écoutant Dylan Patel sur le podcast a16z, il semble que l'un des grands succès de GPT-5 dans le mode de pensée que j'adore (similaire à o3) était d'obtenir des résultats légèrement meilleurs avec presque 50 % de tokens en moins. Je l'ai ressenti un peu, c'est juste plus axé sur la tâche que o3.
Un autre point est la deuxième génération de R1, R1-0528 a amélioré les scores en utilisant beaucoup plus de raisonnement. Qwen a été similaire. Ce n'est pas toujours super précieux pour l'utilisateur.
À un niveau technique, nous résolvons cela en rapportant le nombre de tokens utilisés par modèle dans les résultats d'évaluation (surtout par rapport aux pairs). Le problème est que les lancements d'IA sont maintenant assez grand public et c'est un détail technique nuancé à communiquer.
Du côté de la recherche, par exemple, vous pouvez augmenter de manière significative vos scores d'évaluation en évaluant votre modèle de raisonnement dans un contexte plus long que vos pairs.
L'effort de raisonnement en tokens, et parfois dans le prompt système, est maintenant une variable complexe mais pas un simple oui/non dans toutes ces sorties.
Ci-dessous se trouve une capture d'écran d'un post discutant de cela avant que o1 ne soit publié (le 12 septembre de l'année dernière) et une capture d'écran d'un utilisateur reddit qui a découvert le comportement de pensée de Claude.
Je garde ce discours pour référence future car je dois le répéter tout le temps.


25,01K
Meilleurs
Classement
Favoris