Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Document tout frais : L'illusion des rendements décroissants : Mesurer l'exécution à long terme dans les LLM.
Les petits modèles sont-ils l'avenir de l'IA agentique ? L'augmentation des ressources de calcul des LLM vaut-elle le coût en raison des rendements décroissants ? Les LLM autoregressifs sont-ils condamnés, et la pensée une illusion ?
Les arguments pessimistes pour l'augmentation des LLM sont tous liés à une seule capacité : l'exécution à long terme. Cependant, c'est exactement pourquoi vous devriez être optimiste quant à l'augmentation de la taille des modèles et des ressources de calcul en phase de test !
> D'abord, vous vous souvenez du graphique METR ? Il pourrait être expliqué par le modèle d'erreurs cumulées de @ylecun
> la longueur d'horizon d'un modèle croît de manière super-exponentielle (@DaveShapi) en précision d'une seule étape.
> Résultat 1 : Ne vous laissez pas tromper par le ralentissement des progrès sur les benchmarks de tâches courtes typiques
> cela suffit pour une croissance exponentielle de la longueur d'horizon.
Mais nous allons au-delà du modèle de @ylecun, en testant les LLM empiriquement...
> L'exécution seule est également difficile pour les LLM, même lorsque vous leur fournissez le plan et les connaissances nécessaires.
> Nous ne devrions pas interpréter les échecs d'exécution comme une incapacité à "raisonner".
> Même lorsqu'un petit modèle a une précision de 100 % en une seule étape, des modèles plus grands peuvent exécuter beaucoup plus de tours au-dessus d'un seuil de taux de réussite.
> Avez-vous remarqué comment votre agent performe moins bien à mesure que la tâche devient plus longue ? Ce n'est pas seulement des limitations de contexte long..
> Nous observons : L'effet d'auto-conditionnement !
> Lorsque les modèles voient des erreurs qu'ils ont commises plus tôt dans leur histoire, ils deviennent plus susceptibles de faire des erreurs dans les tours futurs.
> L'augmentation de la taille du modèle aggrave ce problème - un cas rare de mise à l'échelle inverse !
Alors qu'en est-il de la pensée... ?
> La pensée n'est pas une illusion. C'est le moteur de l'exécution !
> Où même DeepSeek v3, Kimi K2 échouent à exécuter même 5 tours latents lorsqu'on leur demande d'exécuter sans CoT...
> Avec CoT, ils peuvent faire 10 fois plus.
Alors qu'en est-il de la frontière ?
...

Meilleurs
Classement
Favoris