Codec care deschide calea pentru ca CT să înțeleagă diferența dintre VLA și LLM-uri
CodecFlow
CodecFlow22 aug., 18:03
VLA sunt încă foarte noi și multor oameni le este greu să înțeleagă diferența dintre VLA și LLM-uri. Iată o analiză profundă a modului în care aceste sisteme AI diferă în raționament, senzație și acțiune. Partea 1. Să analizăm distincțiile cheie și modul în care agenții AI înfășurați în jurul unui LLM diferă de agenții operatori care folosesc modele VLA: 1. Simț: Cum percep lumea Agent (LLM): procesează text sau date structurate, de exemplu JSON, API-uri și, uneori, imagini. Este ca un creier care lucrează cu intrări curate și abstracte. Gândiți-vă la citirea unui manual sau la analizarea unei foi de calcul. Excelent pentru medii structurate, dar limitat de ceea ce este alimentat. Operator (VLA): vede pixelii bruti, în timp real, de la camere, plus datele senzorului (de exemplu, atingerea, poziția) și propriocepția (autoconștientizarea mișcării). Este ca și cum ai naviga prin lume cu ochii și simțurile, prosperând în setări dinamice și dezordonate, cum ar fi interfețele de utilizare sau spațiile fizice. 2. Acționează: Cum interacționează Agent: acționează prin apelarea funcțiilor, instrumentelor sau API-urilor. Imaginați-vă că este un manager care trimite instrucțiuni precise, cum ar fi "rezervați un zbor prin API-ul Expedia". Este deliberat, dar se bazează pe instrumente pre-construite și interfețe clare. Operator: Execută acțiuni continue, de nivel scăzut, cum ar fi mișcarea cursorului mouse-ului, tastarea sau controlul articulațiilor robotului. Este ca un muncitor calificat care manipulează direct mediul, ideal pentru sarcini care necesită precizie în timp real. 3. Control: Cum iau decizii Agent: Urmează o buclă lentă, reflexivă: planifică, apelează un instrument, evaluează rezultatul, repetă. Este legat de token (limitat de procesarea textului) și legat de rețea (așteaptă răspunsurile API). Acest lucru îl face metodic, dar lent pentru sarcinile în timp real. Operator: Operează, luând decizii treptate într-o buclă strânsă de feedback. Gândiți-vă la asta ca la un jucător care reacționează instantaneu la ceea ce este pe ecran. Această viteză permite interacțiunea fluidă, dar necesită o procesare robustă în timp real. 4. Date de învățat: ce le alimentează pregătirea Agent: Antrenat pe corpus de text vast, instrucțiuni, documentație sau seturi de date RAG (Retrieval-Augmented Generation). Învață din cărți, cod sau întrebări frecvente, excelând la raționament în detrimentul cunoștințelor structurate. Operator: Învață din demonstrații (de exemplu, videoclipuri cu oameni care efectuează sarcini), jurnale de teleoperare sau semnale de recompensă. Este ca și cum ai învăța urmărind și exersând, perfect pentru sarcini în care instrucțiunile explicite sunt rare. 5. Moduri de eșec: unde se rup Agent: Predispus la halucinații sau planuri fragile pe termen lung care se destramă dacă un pas eșuează. Este ca un strateg care se gândește prea mult sau interpretează greșit situația. Operator: Se confruntă cu schimbarea covariabilelor (atunci când datele de antrenament nu se potrivesc cu condițiile din lumea reală) sau cu erori combinate în control (mici greșeli bulgăre de zăpadă). Este ca un șofer care pierde controlul pe un drum necunoscut. 6. Infra: Tehnologia din spatele lor Agent: Se bazează pe un prompt/router pentru a decide ce instrumente să apeleze, un registru de instrumente pentru funcțiile disponibile și memorie/RAG pentru context. Este o configurație modulară, ca un centru de comandă care orchestrează sarcini. Operator: Are nevoie de conducte de ingestie video, un server de acțiune pentru control în timp real, un scut de siguranță pentru a preveni acțiunile dăunătoare și un tampon de reluare pentru a stoca experiențe. Este un sistem de înaltă performanță construit pentru medii dinamice. 7. Unde fiecare strălucește: Punctele lor dulci Agent: Domină în fluxurile de lucru cu API-uri curate (de exemplu, automatizarea proceselor de afaceri), raționament asupra documentelor (de exemplu, rezumarea rapoartelor) sau generarea de cod. Este alegerea ta pentru sarcini structurate, de nivel înalt. Operator: Excelează în medii dezordonate, fără API, cum ar fi navigarea în interfețe de utilizare greoaie, controlul roboților sau abordarea sarcinilor asemănătoare jocurilor. Dacă implică interacțiune în timp real cu sisteme imprevizibile, VLA este rege. 8. Model mental: planificator + întreprinzător Gândiți-vă la agentul LLM ca la planificator: împarte sarcinile complexe în obiective clare și logice. Operatorul VLA este cel care execută, executând aceste obiective prin interacțiunea directă cu pixelii sau sistemele fizice. Un verificator (un alt sistem sau agent) monitorizează rezultatele pentru a asigura succesul. $CODEC
3,88K