Acabei de ler este fascinante artigo de pesquisa sobre "Pequenos Modelos de Linguagem para Sistemas Agentes". Esta pesquisa argumenta que os Pequenos Modelos de Linguagem (SLMs, ~1–12B parâmetros) podem lidar com a maioria das tarefas de agentes, enquanto os Grandes Modelos de Linguagem são reservados para os casos mais difíceis. Essa simples mudança = enormes economias e uma latência muito melhor para agentes do mundo real. Artigo →
O trabalho de agente raramente é criatividade aberta. São chamadas de ferramentas, saídas estruturadas, pequenos trechos de código e fluxos de trabalho determinísticos, as coisas para as quais os SLMs foram construídos: inferência mais rápida, menor consumo de energia e tokens mais baratos. Para tarefas comuns de chamada de função e orientadas por esquema, as arquiteturas padrão de SLM reduzem custos em aproximadamente 10×–30× em comparação com configurações apenas de LLM. As melhorias em energia e latência escalam de forma semelhante.
O padrão prático é simples: execute primeiro um SLM, valide sua saída contra esquemas JSON/CFG rigorosos e execute apenas quando a confiança e a validação forem aprovadas. Caso contrário, escale para um LLM ou execute um loop de verificação-reparo. O roteamento utiliza proxies como logprobs e auto-consistência, juntamente com tags de tarefa e regras de orçamento. Se a incerteza do SLM exceder um limite, tente correções do verificador ou encaminhe a solicitação para um LLM, minimizando a necessidade de chamadas de fallback caras.
SLM por defeito + LLM por exceção resulta em pilhas de agentes sustentáveis, escaláveis e com custo-efetivo. Esquemas, validadores, roteadores e adaptadores baratos oferecem fiabilidade, velocidade e enormes economias de custo.
2,17K