Acabo de terminar de leer este fascinante artículo de revisión sobre "Modelos de Lenguaje Pequeños para Sistemas Agentes". Esta revisión argumenta que los Modelos de Lenguaje Pequeños (SLMs, ~1–12B parámetros) pueden manejar la mayoría de las tareas de agentes, mientras que los Modelos de Lenguaje Grandes se reservan para los casos más difíciles. Ese simple cambio = enormes ahorros y una latencia mucho mejor para los agentes del mundo real. Artículo →
El trabajo de agente rara vez es creatividad abierta. Se trata de llamadas a herramientas, salidas estructuradas, fragmentos de código cortos y flujos de trabajo deterministas, las cosas para las que están diseñados los SLM: inferencia más rápida, menor consumo de energía y tokens más baratos. Para tareas comunes de llamadas a funciones y basadas en esquemas, las arquitecturas por defecto de SLM reducen costos en aproximadamente un 10×–30× en comparación con configuraciones solo de LLM. Las mejoras en energía y latencia escalan de manera similar.
El patrón práctico es simple: primero ejecuta un SLM, valida su salida contra esquemas JSON/CFG estrictos y solo ejecuta cuando la confianza y la validación sean aprobadas. Si no, escala a un LLM o ejecuta un bucle de verificación-reparación. El enrutamiento utiliza proxies como logprobs y autoconsistencia, junto con etiquetas de tarea y reglas de presupuesto. Si la incertidumbre del SLM supera un umbral, intenta arreglos de verificador o enruta la solicitud a un LLM, minimizando la necesidad de llamadas de respaldo costosas.
SLM por defecto + LLM por excepción produce pilas de agentes sostenibles, escalables y rentables. Esquemas, validadores, enrutadores y adaptadores económicos te brindan fiabilidad, velocidad y enormes ahorros de costos.
2,03K