Har nettopp lest ferdig denne fascinerende undersøkelsesartikkelen om "Small Language Models for Agentic Systems". Denne undersøkelsen argumenterer for at små språkmodeller (SLM-er, ~1–12B-parametere) kan håndtere de fleste agentoppgaver, mens store LM-er er reservert for de harde kanttilfellene. Det enkle skiftet = massive besparelser og langt bedre ventetid for agenter i den virkelige verden. Papir →
Agentarbeid er sjelden åpen kreativitet. Det er verktøykall, strukturerte utdata, korte kodebiter og deterministiske arbeidsflyter, tingene SLM-er er bygget for å gjøre: raskere slutning, lavere energi og billigere tokens. For vanlige funksjonskall- og skjemadrevne oppgaver reduserer SLM-standardarkitekturer kostnadene med omtrent 10×–30 × sammenlignet med bare LLM-oppsett. Energi- og latensforbedringer skaleres på samme måte.
Det praktiske mønsteret er enkelt: kjør en SLM først, valider utdataene mot strenge JSON/CFG-skjemaer, og utfør bare når konfidensen og valideringen er godkjent. Hvis ikke, eskaler du til en LLM eller kjører en verifikator-reparasjonssløyfe. Ruting bruker proxyer som logprobs og selvkonsistens, sammen med aktivitetskoder og budsjettregler. Hvis SLM-usikkerheten overskrider en terskel, kan du prøve verifikatorreparasjoner eller rute forespørselen til en LLM, noe som minimerer behovet for dyre reservekall.
SLM-by-default + LLM-by-exception gir bærekraftige, skalerbare og kostnadseffektive agentstabler. Skjemaer, validatorer, rutere og billige adaptere gir deg pålitelighet, hastighet og store kostnadsbesparelser.
1,81K