Baru saja selesai membaca makalah survei yang menarik ini tentang "Model Bahasa Kecil untuk Sistem Agen". Survei ini berpendapat bahwa Model Bahasa Kecil (SLM, parameter ~1–12B) dapat menangani sebagian besar tugas agen, sedangkan LM Besar disediakan untuk kasus tepi yang keras. Pergeseran sederhana itu = penghematan besar-besaran dan latensi yang jauh lebih baik untuk agen dunia nyata. Kertas →
Pekerjaan agen jarang merupakan kreativitas terbuka. Ini adalah panggilan alat, output terstruktur, cuplikan kode pendek, dan alur kerja deterministik, hal-hal yang dibuat untuk dilakukan SLM: inferensi yang lebih cepat, energi lebih rendah, dan token yang lebih murah. Untuk tugas pemanggilan fungsi umum dan berbasis skema, arsitektur default SLM memangkas biaya sekitar 10×–30× dibandingkan dengan pengaturan khusus LLM. Peningkatan energi dan latensi berskala serupa.
Pola praktisnya sederhana: jalankan SLM terlebih dahulu, validasi outputnya terhadap skema JSON/CFG yang ketat, dan hanya eksekusi ketika kepercayaan dan validasi lulus. Jika tidak, eskalasi ke LLM atau jalankan loop perbaikan verifier. Perutean menggunakan proxy seperti logprobs dan self-consistency, bersama dengan tag tugas dan aturan anggaran. Jika ketidakpastian SLM melebihi ambang batas, coba perbaikan pemverifikasi atau rutekan permintaan ke LLM, meminimalkan kebutuhan akan panggilan penggantian yang mahal.
SLM-by-default + LLM-by-exception menghasilkan tumpukan agen yang berkelanjutan, dapat diskalakan, dan hemat biaya. Skema, validator, router, dan adaptor murah memberi Anda keandalan, kecepatan, dan penghematan biaya yang sangat besar.
2,05K