Je viens de finir de lire cet article de recherche fascinant sur "Les petits modèles de langage pour les systèmes agentiques". Cet article soutient que les petits modèles de langage (SLMs, ~1–12B params) peuvent gérer la plupart des tâches d'agent, tandis que les grands modèles de langage sont réservés aux cas les plus difficiles. Ce simple changement = économies massives et bien meilleure latence pour les agents du monde réel. Article →
Le travail d'agent est rarement une créativité ouverte. Ce sont des appels d'outils, des résultats structurés, des extraits de code courts et des flux de travail déterministes, les choses pour lesquelles les SLM sont conçus : une inférence plus rapide, une consommation d'énergie réduite et des jetons moins chers. Pour les tâches courantes d'appel de fonction et basées sur des schémas, les architectures par défaut des SLM réduisent les coûts d'environ 10× à 30× par rapport aux configurations uniquement LLM. Les améliorations en matière d'énergie et de latence évoluent de manière similaire.
Le schéma pratique est simple : exécutez d'abord un SLM, validez sa sortie par rapport à des schémas JSON/CFG stricts, et n'exécutez que lorsque la confiance et la validation sont satisfaites. Sinon, escaladez vers un LLM ou exécutez une boucle de vérification-réparation. Le routage utilise des proxys tels que les logprobs et la cohérence interne, ainsi que des balises de tâche et des règles budgétaires. Si l'incertitude du SLM dépasse un seuil, essayez des corrections de vérificateur ou redirigez la demande vers un LLM, minimisant ainsi le besoin d'appels de secours coûteux.
SLM-par-défaut + LLM-par-exception génère des piles d'agents durables, évolutives et rentables. Les schémas, validateurs, routeurs et adaptateurs bon marché vous offrent fiabilité, rapidité et d'énormes économies.
2,16K