🚨 DeepMind finalmente dejó caer el artículo de Veo3 que muestra lo que todos nos damos cuenta al jugar con modelos de generación de video. Al igual que los LLM, el razonamiento visual es una propiedad emergente del entrenamiento en toneladas de video. Puede resolver tareas que no están explícitamente en los datos de entrenamiento. "Veo 3 es el momento GPT-3 para el razonamiento visual"
Fuente:
153.67K