Щойно закінчив читати цю захоплюючу оглядову статтю на тему "Моделі малою мовою для агентних систем". У цьому дослідженні стверджується, що моделі малої мови (SLM, ~1–12B параметри) можуть обробляти більшість завдань агентів, тоді як великі LM зарезервовані для випадків жорсткого краю. Цей простий зсув = величезна економія та набагато краща затримка для реальних агентів. Паперові →
Агентська робота рідко буває відкритою творчістю. Це виклики інструментів, структуровані виводи, короткі фрагменти коду та детерміновані робочі процеси – те, для чого створені SLM: швидший висновок, нижчий енергоспоживання та дешевші токени. Для типових завдань виклику функцій і схеми, архітектури за замовчуванням SLM скорочують витрати приблизно на 10×–30× порівняно з конфігураціями, що працюють лише з LLM. Покращення енергії та затримки масштабуються аналогічно.
Практична схема проста: спочатку запустіть SLM, перевірте його вихідні дані за строгими схемами JSON/CFG і виконуйте лише тоді, коли пройдуть впевненість і валідація. Якщо ні, перейдіть до LLM або запустіть цикл перевірки-ремонту. Маршрутизація використовує проксі-сервери, такі як логпроби та самоузгодженість, а також теги завдань та правила бюджету. Якщо невизначеність SLM перевищує порогове значення, спробуйте виправити помилку верифікатором або направити запит до LLM, мінімізувавши потребу в дорогих резервних дзвінках.
SLM за замовчуванням + LLM за винятком дає стійкі, масштабовані та економічно ефективні стеки агентів. Схеми, валідатори, маршрутизатори та дешеві адаптери забезпечують надійність, швидкість та величезну економію коштів.
2,15K