Acabei de ler este fascinante artigo de pesquisa sobre "Modelos de linguagem pequena para sistemas agenciais". Esta pesquisa argumenta que os modelos de linguagem pequena (SLMs, ~ 1–12B parâmetros) podem lidar com a maioria das tarefas do agente, enquanto os grandes LMs são reservados para os casos extremos. Essa mudança simples = economia massiva e latência muito melhor para agentes do mundo real. → de papel
O trabalho do agente raramente é criatividade aberta. São chamadas de ferramentas, saídas estruturadas, trechos de código curtos e fluxos de trabalho determinísticos, as coisas que os SLMs são construídos para fazer: inferência mais rápida, menor consumo de energia e tokens mais baratos. Para tarefas comuns de chamada de função e orientadas por esquema, as arquiteturas padrão do SLM reduzem os custos em aproximadamente 10× a 30× em comparação com as configurações somente LLM. As melhorias de energia e latência são dimensionadas de forma semelhante.
O padrão prático é simples: execute um SLM primeiro, valide sua saída em relação a esquemas JSON/CFG estritos e execute apenas quando a confiança e a validação forem aprovadas. Caso contrário, escale para um LLM ou execute um loop de reparo do verificador. O roteamento usa proxies como logprobs e autoconsistência, juntamente com tags de tarefa e regras de orçamento. Se a incerteza do SLM exceder um limite, tente correções do verificador ou encaminhe a solicitação para um LLM, minimizando a necessidade de chamadas de fallback caras.
SLM por padrão + LLM por exceção produz pilhas de agentes sustentáveis, escaláveis e econômicas. Esquemas, validadores, roteadores e adaptadores baratos oferecem confiabilidade, velocidade e enorme economia de custos.
2,03K