Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nous pourrions aborder cela par une exécution contrainte.
Limiter la longueur de la sortie, comme la limite de 140 caractères sur Twitter.
Ou limiter le temps d'exécution, comme le mode temps réel sous Linux.


10 août, 00:53
Je remarque qu'en raison de (je pense ?) beaucoup de benchmarkmaxxing sur des tâches à long terme, les LLMs deviennent un peu trop agentiques par défaut, un peu au-delà de mon cas d'utilisation moyen.
Par exemple, en codage, les modèles ont maintenant tendance à raisonner pendant un temps assez long, ils ont une inclination à commencer à lister et à grepper des fichiers dans tout le dépôt, ils effectuent des recherches web répétées, ils sur-analyzent et sur-réfléchissent à de rares cas particuliers même dans du code qui est manifestement incomplet et en cours de développement actif, et reviennent souvent ~minutes plus tard même pour des requêtes simples.
Cela peut avoir du sens pour des tâches de longue durée, mais c'est moins adapté pour un développement itéré plus "dans le coup" que je fais encore beaucoup, ou si je cherche juste à faire un rapide contrôle avant d'exécuter un script, juste au cas où j'aurais mal indexé ou commis une erreur stupide. Donc, je me retrouve assez souvent à arrêter les LLMs avec des variations de "Arrête, tu réfléchis trop. Regarde seulement ce fichier unique. N'utilise aucun outil. Ne sur-ingénierie pas", etc.
En gros, alors que le défaut commence à lentement glisser vers le mode "ultrathink" super agentique, je ressens le besoin de l'inverse, et plus généralement de bonnes façons d'indiquer ou de communiquer l'intention / les enjeux, allant de "juste jeter un coup d'œil rapide" jusqu'à "pars pendant 30 minutes, reviens quand tu es absolument certain".
Vous n'avez pas besoin d'utiliser les concepts exactement, mais des idées du développement de systèmes d'exploitation en temps réel pourraient être intégrées comme contraintes lors de l'entraînement et de l'évaluation de l'IA.
Un temps réel souple peut être suffisant. À moins que ce ne soit un accident de voiture si cela ne fonctionne pas, comme un temps réel strict.

104,49K
Meilleurs
Classement
Favoris