Luin juuri tämän kiehtovan tutkimuspaperin aiheesta "Small Language Models for Agentic Systems". Tässä tutkimuksessa väitetään, että pienet kielimallit (SLM:t, ~1–12B parametrit) pystyvät hoitamaan useimmat agenttien tehtävät, kun taas suuret LM:t on varattu kovan reunan tapauksiin. Tämä yksinkertainen muutos = valtavat säästöt ja paljon parempi latenssi reaalimaailman agenteille. Paperin →
Agenttityö on harvoin avointa luovuutta. Se on työkalukutsuja, jäsenneltyjä tulosteita, lyhyitä koodinpätkiä ja deterministisiä työnkulkuja, asioita, joita SLM:t on rakennettu tekemään: nopeampi päättely, pienempi energia ja halvemmat tokenit. Yleisissä funktiokutsuissa ja skeemapohjaisissa tehtävissä SLM-oletusarkkitehtuurit leikkaavat kustannuksia noin 10×–30 × verrattuna pelkkiin LLM-asetuksiin. Energia- ja latenssiparannukset skaalautuvat samalla tavalla.
Käytännön malli on yksinkertainen: suorita ensin SLM, validoi sen tulos tiukkoja JSON/CFG-skeemoja vastaan ja suorita se vain, kun luotettavuus ja validointi läpäisevät. Jos ei, eskaloi LLM:ään tai suorita todentaja-korjaussilmukka. Reitityksessä käytetään välityspalvelimia, kuten logprobsia ja itsejohdonmukaisuutta, sekä tehtävätunnisteita ja budjettisääntöjä. Jos SLM-epävarmuus ylittää kynnysarvon, yritä todentaja korjata tai reitittää pyyntö LLM:ään, mikä minimoi kalliiden varakutsujen tarpeen.
SLM-oletusarvoisesti + LLM-poikkeuksena tuottaa kestäviä, skaalautuvia ja kustannustehokkaita agenttipinoja. Kaaviot, validaattorit, reitittimet ja halvat sovittimet antavat sinulle luotettavuutta, nopeutta ja valtavia kustannussäästöjä.
2,03K