Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Acabei de ler este fascinante artigo de pesquisa sobre "Pequenos Modelos de Linguagem para Sistemas Agentes".
Esta pesquisa argumenta que os Pequenos Modelos de Linguagem (SLMs, ~1–12B parâmetros) podem lidar com a maioria das tarefas de agentes, enquanto os Grandes Modelos de Linguagem são reservados para os casos mais difíceis. 
Essa simples mudança = enormes economias e uma latência muito melhor para agentes do mundo real. 
Artigo → 

O trabalho de agente raramente é criatividade aberta. São chamadas de ferramentas, saídas estruturadas, pequenos trechos de código e fluxos de trabalho determinísticos, as coisas para as quais os SLMs foram construídos: inferência mais rápida, menor consumo de energia e tokens mais baratos.
Para tarefas comuns de chamada de função e orientadas por esquema, as arquiteturas padrão de SLM reduzem custos em aproximadamente 10×–30× em comparação com configurações apenas de LLM. As melhorias em energia e latência escalam de forma semelhante.

O padrão prático é simples: execute primeiro um SLM, valide sua saída contra esquemas JSON/CFG rigorosos e execute apenas quando a confiança e a validação forem aprovadas. Caso contrário, escale para um LLM ou execute um loop de verificação-reparo.
O roteamento utiliza proxies como logprobs e auto-consistência, juntamente com tags de tarefa e regras de orçamento. Se a incerteza do SLM exceder um limite, tente correções do verificador ou encaminhe a solicitação para um LLM, minimizando a necessidade de chamadas de fallback caras.

SLM por defeito + LLM por exceção resulta em pilhas de agentes sustentáveis, escaláveis e com custo-efetivo. Esquemas, validadores, roteadores e adaptadores baratos oferecem fiabilidade, velocidade e enormes economias de custo.

2,17K
Top
Classificação
Favoritos

