刚刚读完这篇关于《小型语言模型在代理系统中的应用》的有趣调查论文。 这篇调查认为,小型语言模型(SLMs,约1–12亿参数)可以处理大多数代理任务,而大型语言模型则保留用于困难的边缘案例。 这个简单的转变 = 巨大的节省和更好的延迟,适用于现实世界的代理。 论文 →
代理工作很少是开放式的创造力。它是工具调用、结构化输出、短代码片段和确定性工作流程,这些都是SLM(结构化语言模型)所擅长的:更快的推理、更低的能耗和更便宜的代币。 对于常见的函数调用和基于模式的任务,SLM默认架构的成本比仅使用LLM(大型语言模型)的设置降低了大约10×–30×。能量和延迟的改善也以类似的方式扩展。
实际模式很简单:首先运行一个SLM,验证其输出是否符合严格的JSON/CFG模式,只有在信心和验证通过时才执行。如果不通过,则升级到LLM或运行验证修复循环。 路由使用代理,如logprobs和自一致性,以及任务标签和预算规则。如果SLM的不确定性超过阈值,尝试验证修复或将请求路由到LLM,尽量减少对昂贵的后备调用的需求。
默认的SLM + 例外的LLM产生可持续、可扩展且成本高效的代理堆栈。模式、验证器、路由器和廉价适配器为您提供可靠性、速度和巨大的成本节省。
2.03K