Właśnie skończyłem czytać tę fascynującą pracę przeglądową na temat "Małych modeli językowych dla systemów agentowych". Ta praca przeglądowa argumentuje, że Małe modele językowe (SLM, ~1–12B parametrów) mogą obsługiwać większość zadań agentowych, podczas gdy Duże modele językowe są zarezerwowane dla trudnych przypadków brzegowych. Ta prosta zmiana = ogromne oszczędności i znacznie lepsza latencja dla agentów w rzeczywistym świecie. Artykuł →
Praca agenta rzadko jest otwartą kreatywnością. To wywołania narzędzi, strukturalne wyniki, krótkie fragmenty kodu i deterministyczne przepływy pracy, rzeczy, do których SLM-y są stworzone: szybsze wnioskowanie, niższe zużycie energii i tańsze tokeny. Dla powszechnych zadań związanych z wywoływaniem funkcji i opartych na schematach, architektury domyślne SLM obniżają koszty o około 10×–30× w porównaniu do konfiguracji tylko z LLM. Udoskonalenia w zakresie energii i opóźnień skalują się podobnie.
Praktyczny wzór jest prosty: najpierw uruchom SLM, zweryfikuj jego wyniki w stosunku do ścisłych schematów JSON/CFG i wykonaj tylko wtedy, gdy pewność i walidacja przejdą. Jeśli nie, eskaluj do LLM lub uruchom pętlę weryfikacji-naprawy. Routing wykorzystuje proxy, takie jak logprobs i samokonsystencja, wraz z tagami zadań i zasadami budżetowymi. Jeśli niepewność SLM przekroczy próg, spróbuj naprawić za pomocą weryfikatora lub skieruj żądanie do LLM, minimalizując potrzebę kosztownych wywołań zapasowych.
SLM-domyślnie + LLM-z wyjątkiem daje zrównoważone, skalowalne i opłacalne stosy agentów. Schematy, walidatory, routery i tanie adaptery zapewniają niezawodność, szybkość i ogromne oszczędności kosztów.
2,17K