Ho appena finito di leggere questo affascinante articolo di ricerca su "Small Language Models for Agentic Systems". Questo studio sostiene che i Small Language Models (SLMs, ~1–12B parametri) possono gestire la maggior parte dei compiti degli agenti, mentre i Large LMs sono riservati ai casi più difficili. Quella semplice modifica = enormi risparmi e una latenza molto migliore per gli agenti nel mondo reale. Articolo →
Il lavoro dell'agente è raramente creatività aperta. Si tratta di chiamate agli strumenti, output strutturati, brevi frammenti di codice e flussi di lavoro deterministici, le cose per cui gli SLM sono progettati: inferenza più veloce, minore consumo energetico e token più economici. Per le funzioni comuni e i compiti basati su schemi, le architetture predefinite SLM riducono i costi di circa 10×–30× rispetto alle configurazioni solo LLM. I miglioramenti in termini di energia e latenza scalano in modo simile.
Il modello pratico è semplice: eseguire prima un SLM, convalidare il suo output rispetto a schemi JSON/CFG rigorosi e procedere solo quando la fiducia e la convalida sono superate. In caso contrario, escalare a un LLM o eseguire un ciclo di verifica-riparazione. Il routing utilizza proxy come logprobs e auto-consistenza, insieme a tag di attività e regole di budget. Se l'incertezza dell'SLM supera una soglia, tentare correzioni del verificatore o indirizzare la richiesta a un LLM, minimizzando la necessità di costose chiamate di fallback.
SLM-per-default + LLM-per-eccezione genera stack di agenti sostenibili, scalabili e a costi contenuti. Schemi, validatori, router e adattatori economici ti offrono affidabilità, velocità e enormi risparmi sui costi.
1,81K