Только что закончил читать эту увлекательную обзорную статью о "Малых языковых моделях для агентных систем". В этом обзоре утверждается, что Малые языковые модели (SLMs, ~1–12B параметров) могут справляться с большинством задач агентов, в то время как Большие языковые модели предназначены для сложных крайних случаев. Этот простой сдвиг = огромная экономия и гораздо лучшая задержка для реальных агентов. Статья →
Работа агента редко бывает открытой для творчества. Это вызовы инструментов, структурированные результаты, короткие фрагменты кода и детерминированные рабочие процессы, то, для чего созданы SLM: более быстрая инференция, меньшая энергия и более дешевые токены. Для общих задач вызова функций и задач, основанных на схемах, архитектуры по умолчанию SLM снижают затраты примерно в 10–30 раз по сравнению с настройками только LLM. Улучшения в области энергии и задержки масштабируются аналогично.
Практическая схема проста: сначала запустите SLM, проверьте его вывод на соответствие строгим схемам JSON/CFG и выполняйте только в случае успешного прохождения проверки и уверенности. Если нет, передайте на LLM или запустите цикл проверки-ремонта. Маршрутизация использует прокси, такие как logprobs и самосогласованность, а также теги задач и правила бюджета. Если неопределенность SLM превышает порог, попытайтесь исправить с помощью проверяющего или перенаправьте запрос на LLM, минимизируя необходимость в дорогих запасных вызовах.
SLM-по-умолчанию + LLM-по-исключению обеспечивает устойчивые, масштабируемые и экономически эффективные стеки агентов. Схемы, валидаторы, маршрутизаторы и дешевые адаптеры обеспечивают надежность, скорость и огромную экономию средств.
2,04K