Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Acabei de ler este fascinante artigo de pesquisa sobre "Modelos de linguagem pequena para sistemas agenciais".
Esta pesquisa argumenta que os modelos de linguagem pequena (SLMs, ~ 1–12B parâmetros) podem lidar com a maioria das tarefas do agente, enquanto os grandes LMs são reservados para os casos extremos.
Essa mudança simples = economia massiva e latência muito melhor para agentes do mundo real.
→ de papel

O trabalho do agente raramente é criatividade aberta. São chamadas de ferramentas, saídas estruturadas, trechos de código curtos e fluxos de trabalho determinísticos, as coisas que os SLMs são construídos para fazer: inferência mais rápida, menor consumo de energia e tokens mais baratos.
Para tarefas comuns de chamada de função e orientadas por esquema, as arquiteturas padrão do SLM reduzem os custos em aproximadamente 10× a 30× em comparação com as configurações somente LLM. As melhorias de energia e latência são dimensionadas de forma semelhante.

O padrão prático é simples: execute um SLM primeiro, valide sua saída em relação a esquemas JSON/CFG estritos e execute apenas quando a confiança e a validação forem aprovadas. Caso contrário, escale para um LLM ou execute um loop de reparo do verificador.
O roteamento usa proxies como logprobs e autoconsistência, juntamente com tags de tarefa e regras de orçamento. Se a incerteza do SLM exceder um limite, tente correções do verificador ou encaminhe a solicitação para um LLM, minimizando a necessidade de chamadas de fallback caras.

SLM por padrão + LLM por exceção produz pilhas de agentes sustentáveis, escaláveis e econômicas. Esquemas, validadores, roteadores e adaptadores baratos oferecem confiabilidade, velocidade e enorme economia de custos.

2,03K
Melhores
Classificação
Favoritos

