Vừa đọc xong bài khảo sát thú vị này về "Mô hình Ngôn ngữ Nhỏ cho Hệ thống Tác động". Bài khảo sát này lập luận rằng Mô hình Ngôn ngữ Nhỏ (SLMs, ~1–12B tham số) có thể xử lý hầu hết các nhiệm vụ của tác nhân, trong khi các Mô hình Ngôn ngữ Lớn được dành cho những trường hợp khó khăn hơn. Sự thay đổi đơn giản đó = tiết kiệm lớn và độ trễ tốt hơn nhiều cho các tác nhân trong thế giới thực. Bài báo →
Công việc của đại lý hiếm khi là sự sáng tạo không giới hạn. Đó là các cuộc gọi công cụ, đầu ra có cấu trúc, các đoạn mã ngắn và quy trình làm việc xác định, những thứ mà SLM được xây dựng để thực hiện: suy diễn nhanh hơn, tiêu thụ năng lượng thấp hơn và token rẻ hơn. Đối với các tác vụ gọi hàm và dựa trên sơ đồ thông thường, các kiến trúc mặc định của SLM giảm chi phí khoảng 10×–30× so với các thiết lập chỉ có LLM. Cải tiến về năng lượng và độ trễ cũng tăng theo tỷ lệ tương tự.
Mô hình thực tiễn rất đơn giản: chạy một SLM trước, xác thực đầu ra của nó theo các sơ đồ JSON/CFG nghiêm ngặt, và chỉ thực hiện khi độ tin cậy và xác thực đạt yêu cầu. Nếu không, hãy nâng cấp lên một LLM hoặc chạy một vòng lặp xác minh-sửa chữa. Việc định tuyến sử dụng các proxy như logprobs và tính nhất quán tự thân, cùng với các thẻ nhiệm vụ và quy tắc ngân sách. Nếu sự không chắc chắn của SLM vượt quá ngưỡng, hãy cố gắng sửa chữa bằng xác minh hoặc định tuyến yêu cầu đến một LLM, giảm thiểu nhu cầu gọi lại tốn kém.
SLM-mặc định + LLM-ngoại lệ tạo ra các ngăn xếp đại lý bền vững, có thể mở rộng và tiết kiệm chi phí. Các sơ đồ, bộ xác thực, bộ định tuyến và bộ chuyển đổi giá rẻ mang lại cho bạn độ tin cậy, tốc độ và tiết kiệm chi phí lớn.
2,15K