DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Acabo de terminar de leer este fascinante artículo de revisión sobre "Modelos de Lenguaje Pequeños para Sistemas Agentes". Esta revisión argumenta que los Modelos de Lenguaje Pequeños (SLMs, ~1–12B parámetros) pueden manejar la mayoría de las tareas de agentes, mientras que los Modelos de Lenguaje Grandes se reservan para los casos más difíciles. Ese simple cambio = enormes ahorros y una latencia mucho mejor para los agentes del mundo real. Artículo →

El trabajo de agente rara vez es creatividad abierta. Se trata de llamadas a herramientas, salidas estructuradas, fragmentos de código cortos y flujos de trabajo deterministas, las cosas para las que están diseñados los SLM: inferencia más rápida, menor consumo de energía y tokens más baratos. Para tareas comunes de llamadas a funciones y basadas en esquemas, las arquitecturas por defecto de SLM reducen costos en aproximadamente un 10×–30× en comparación con configuraciones solo de LLM. Las mejoras en energía y latencia escalan de manera similar.

El patrón práctico es simple: primero ejecuta un SLM, valida su salida contra esquemas JSON/CFG estrictos y solo ejecuta cuando la confianza y la validación sean aprobadas. Si no, escala a un LLM o ejecuta un bucle de verificación-reparación. El enrutamiento utiliza proxies como logprobs y autoconsistencia, junto con etiquetas de tarea y reglas de presupuesto. Si la incertidumbre del SLM supera un umbral, intenta arreglos de verificador o enruta la solicitud a un LLM, minimizando la necesidad de llamadas de respaldo costosas.

SLM por defecto + LLM por excepción produce pilas de agentes sostenibles, escalables y rentables. Esquemas, validadores, enrutadores y adaptadores económicos te brindan fiabilidad, velocidad y enormes ahorros de costos.

2,03K

Parte superior

Clasificación

Favoritos