Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Si te has preguntado cuál es la diferencia entre LLM y VLA
Ya sabes sobre LLMs
Pronto aprenderás sobre VLAs
(cuando pierdas tu trabajo dando vuelta hamburguesas a un robot)
Codec codificado

22 ago, 18:03
Los VLAs todavía son muy nuevos y muchas personas encuentran difícil entender la diferencia entre los VLAs y los LLMs.
Aquí hay un análisis profundo de cómo estos sistemas de IA difieren en razonamiento, percepción y acción. Parte 1.
Desglosemos las principales distinciones y cómo los agentes de IA envueltos en un LLM difieren de los agentes operativos que utilizan modelos VLA:
1. Percepción: Cómo perciben el mundo
Agente (LLM): Procesa texto o datos estructurados, por ejemplo, JSON, APIs y a veces imágenes. Es como un cerebro que trabaja con entradas limpias y abstractas. Piensa en leer un manual o analizar una hoja de cálculo. Genial para entornos estructurados, pero limitado por lo que se le alimenta.
Operador (VLA): Ve píxeles en bruto y en tiempo real de cámaras, además de datos de sensores (por ejemplo, tacto, posición) y propriocepción (autoconciencia del movimiento). Es como navegar por el mundo con ojos y sentidos, prosperando en entornos dinámicos y desordenados como interfaces de usuario o espacios físicos.
2. Actuar: Cómo interactúan
Agente: Actúa llamando funciones, herramientas o APIs. Imagínalo como un gerente que envía instrucciones precisas como “reserva un vuelo a través de la API de Expedia.” Es deliberado pero depende de herramientas preconstruidas e interfaces claras.
Operador: Ejecuta acciones continuas y de bajo nivel, como mover un cursor de ratón, escribir o controlar las articulaciones de un robot. Es como un trabajador hábil manipulando directamente el entorno, ideal para tareas que requieren precisión en tiempo real.
3. Control: Cómo toman decisiones
Agente: Sigue un ciclo lento y reflexivo: planificar, llamar a una herramienta, evaluar el resultado, repetir. Está limitado por tokens (limitado por el procesamiento de texto) y por la red (esperando respuestas de la API). Esto lo hace metódico pero lento para tareas en tiempo real.
Operador: Opera, tomando decisiones paso a paso en un ciclo de retroalimentación ajustado. Piensa en un jugador reaccionando instantáneamente a lo que hay en la pantalla. Esta velocidad permite una interacción fluida pero exige un procesamiento robusto en tiempo real.
4. Datos para aprender: Qué alimenta su entrenamiento
Agente: Entrenado en vastos corpus de texto, instrucciones, documentación o conjuntos de datos RAG (Generación Aumentada por Recuperación). Aprende de libros, código o preguntas frecuentes, destacándose en el razonamiento sobre conocimiento estructurado.
Operador: Aprende de demostraciones (por ejemplo, videos de humanos realizando tareas), registros de teleoperación o señales de recompensa. Es como aprender observando y practicando, perfecto para tareas donde las instrucciones explícitas son escasas.
5. Modos de fallo: Dónde se rompen
Agente: Propenso a la alucinación (inventar respuestas) o a planes de largo plazo frágiles que se desmoronan si un paso falla. Es como un estratega que sobrepiensa o malinterpreta la situación.
Operador: Enfrenta un cambio de covariables (cuando los datos de entrenamiento no coinciden con las condiciones del mundo real) o errores acumulativos en el control (pequeños errores que se agravan). Es como un conductor perdiendo el control en una carretera desconocida.
6. Infraestructura: La tecnología detrás de ellos
Agente: Depende de un prompt/router para decidir qué herramientas llamar, un registro de herramientas para funciones disponibles y memoria/RAG para contexto. Es una configuración modular, como un centro de comando orquestando tareas.
Operador: Necesita tuberías de ingestión de video, un servidor de acciones para control en tiempo real, un escudo de seguridad para prevenir acciones dañinas y un búfer de reproducción para almacenar experiencias. Es un sistema de alto rendimiento construido para entornos dinámicos.
7. Dónde brilla cada uno: Sus puntos fuertes
Agente: Domina en flujos de trabajo con APIs limpias (por ejemplo, automatización de procesos empresariales), razonamiento sobre documentos (por ejemplo, resumiendo informes) o generación de código. Es tu opción preferida para tareas estructuradas y de alto nivel.
Operador: Destaca en entornos desordenados y sin APIs, como navegar por interfaces de usuario torpes, controlar robots o abordar tareas similares a juegos. Si implica interacción en tiempo real con sistemas impredecibles, el VLA es el rey.
8. Modelo mental: Planificador + Ejecutante
Piensa en el Agente LLM como el planificador: descompone tareas complejas en objetivos claros y lógicos.
El Operador VLA es el ejecutante, llevando a cabo esos objetivos interactuando directamente con píxeles o sistemas físicos. Un verificador (otro sistema o agente) monitorea los resultados para asegurar el éxito.
$CODEC

1,82K
Parte superior
Clasificación
Favoritos