Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Właśnie skończyłem czytać tę fascynującą pracę przeglądową na temat "Małych modeli językowych dla systemów agentowych".
Ta praca przeglądowa argumentuje, że Małe modele językowe (SLM, ~1–12B parametrów) mogą obsługiwać większość zadań agentowych, podczas gdy Duże modele językowe są zarezerwowane dla trudnych przypadków brzegowych.
Ta prosta zmiana = ogromne oszczędności i znacznie lepsza latencja dla agentów w rzeczywistym świecie.
Artykuł → 

Praca agenta rzadko jest otwartą kreatywnością. To wywołania narzędzi, strukturalne wyniki, krótkie fragmenty kodu i deterministyczne przepływy pracy, rzeczy, do których SLM-y są stworzone: szybsze wnioskowanie, niższe zużycie energii i tańsze tokeny.
Dla powszechnych zadań związanych z wywoływaniem funkcji i opartych na schematach, architektury domyślne SLM obniżają koszty o około 10×–30× w porównaniu do konfiguracji tylko z LLM. Udoskonalenia w zakresie energii i opóźnień skalują się podobnie.

Praktyczny wzór jest prosty: najpierw uruchom SLM, zweryfikuj jego wyniki w stosunku do ścisłych schematów JSON/CFG i wykonaj tylko wtedy, gdy pewność i walidacja przejdą. Jeśli nie, eskaluj do LLM lub uruchom pętlę weryfikacji-naprawy.
Routing wykorzystuje proxy, takie jak logprobs i samokonsystencja, wraz z tagami zadań i zasadami budżetowymi. Jeśli niepewność SLM przekroczy próg, spróbuj naprawić za pomocą weryfikatora lub skieruj żądanie do LLM, minimalizując potrzebę kosztownych wywołań zapasowych.

SLM-domyślnie + LLM-z wyjątkiem daje zrównoważone, skalowalne i opłacalne stosy agentów. Schematy, walidatory, routery i tanie adaptery zapewniają niezawodność, szybkość i ogromne oszczędności kosztów.

2,17K
Najlepsze
Ranking
Ulubione

