🚨 DeepMind finalmente publicó el documento de Veo3 que muestra lo que todos nos damos cuenta al jugar con modelos de video-gen. Al igual que los LLMs, el razonamiento visual es una propiedad emergente del entrenamiento con toneladas de video. Puede resolver tareas que no están explícitamente en los datos de entrenamiento. "Veo 3 es el momento GPT-3 para el razonamiento visual"
Fuente:
285,32K