Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tocmai am terminat de citit acest studiu fascinant despre "Modele de limbaj mici pentru sisteme agentice".
Acest sondaj susține că modelele de limbaj mici (SLM, ~1-12B parametri) pot gestiona majoritatea sarcinilor agenților, în timp ce LM-urile mari sunt rezervate pentru cazurile limită.
Această simplă schimbare = economii masive și o latență mult mai bună pentru agenții din lumea reală.
Hârtie →

Munca agentului este rareori creativitate deschisă. Sunt apeluri de instrumente, ieșiri structurate, fragmente scurte de cod și fluxuri de lucru deterministe, lucrurile pentru care SLM-urile sunt construite: inferență mai rapidă, energie mai mică și token-uri mai ieftine.
Pentru sarcinile obișnuite de apelare a funcțiilor și bazate pe schemă, arhitecturile implicite SLM reduc costurile cu aproximativ 10×-30× comparativ cu configurațiile numai LLM. Îmbunătățirile de energie și latență se scalează în mod similar.

Modelul practic este simplu: rulați mai întâi un SLM, validați-i rezultatul împotriva schemelor JSON/CFG stricte și executați numai când încrederea și validarea trec. Dacă nu, escaladați la un LLM sau rulați o buclă de verificare-reparare.
Rutarea folosește proxy-uri, cum ar fi logprobs și auto-consistență, împreună cu etichete de activitate și reguli bugetare. Dacă incertitudinea SLM depășește un prag, încercați remedieri de verificare sau direcționați solicitarea către un LLM, reducând la minimum nevoia de apeluri de rezervă costisitoare.

SLM-by-default + LLM-by-exception produce stive de agenți durabile, scalabile și eficiente din punct de vedere al costurilor. Schemele, validatoarele, routerele și adaptoarele ieftine vă oferă fiabilitate, viteză și economii uriașe de costuri.

2,03K
Limită superioară
Clasament
Favorite

