Felipe Silberstein de Apply Digital: Sora revoluciona la forma de hacer videos
Por Felipe Silberstein, jefe de Estrategia de Plataformas en Apply Digital. | Fotografía Créditos Apply Digital

Felipe Silberstein de Apply Digital: Sora revoluciona la forma de hacer videos

Por Felipe Silberstein, jefe de Estrategia de Plataformas en Apply Digital.

La semana pasada, la industria digital recibió con asombro una muestra de Sora, un sistema de inteligencia artificial que permite la generación de videos a partir de la redacción de un comando en forma de texto.

Sora es el nuevo modelo de IA de texto a video de OpenAI
Sora es un impresionante -- pero a la vez espeluznante -- modelo capaz de generar videos de hasta 60 segundos de duración.

Y aunque ya existían otros modelos de IA capaces de generar videos, la diferencia de Sora está en la impresionante capacidad y resultados que entrega el modelo, utilizando toda la tecnología y aprendizajes de OpenAI, dueño de ChatGPT y el text-to-image Dall-E.

OpenAI innova en seguridad digital con marcas de agua invisibles en DALL-E 3
OpenAI establece nuevos estándares en la verificación de imágenes IA, introduciendo tecnología de autenticación oculta.

Los “antiguos” motores de generación de videos trabajan en base a un entrenamiento de imágenes (eje X, Y), mientras que Sora incorpora un tercer eje, logrando que el resultado final sea más consistente y cercano a una toma real, además de entregar consistencia para personajes en diferentes tomas. A estos modelos, que integran y sintetizan conocimientos procedentes de una amplia gama de fuentes para formar una mejor comprensión del mundo, se les está llamando “General World Models”.

El entrenamiento de los lenguajes de IA permiten no solo entender lo que la persona está pidiendo en su texto, sino además cómo adaptarlo al mundo real.
Ahora, solo se necesita un comando y un modelo de lenguaje que entienda lo que estoy diciendo para crear lo que quiera. Lo que resulta de ese comando puede ser un texto diferente (ChatGPT), una imagen (Dall-E, MidJourney), código (CodeGPT, Copilot de Github), sonidos (ElevenLabs) o un video, como es el caso de Sora o Runway, empresa fundada por chilenos.

¿Qué es la inteligencia artificial generativa?
En este artículo repasaremos el concepto de moda en el mundo tech de este 2023: la IA generativa.
La Revolución de la IA: Modelos de Lenguaje de Gran Tamaño (LLM) explicados
Los modelos de lenguaje de gran tamaño (LLM) son la base de la gran mayoría de las herramientas más populares del momento: ChatGPT, Dall-E, etcétera.

Esto, sin duda, va a revolucionar la industria de las películas, de los videojuegos e, incluso, cómo nos relacionamos con cosas mucho más cotidianas como una tienda digital. Y es que con Sora ya no es necesario depender de la información del usuario o tener buenas técnicas de predicción para entregar un contenido personalizado; ahora, el input vendrá directamente del comprador, haciendo más cercano el concepto de “Comercio Conversacional”.

Por ejemplo, una mujer buscando unos zapatos que hagan match con su vestido rojo podrá pedirle al e-commerce que le sugiera unos zapatos que combinen con su vestido rojo y que genere un pequeño video para decidir su compra.

Es importante recordar, eso sí, que este tipo de modelos son, al fin y al cabo, herramientas. Pasó con los aviones, que logramos acortar viajes que duraban meses a solo horas; ahora pasamos a generar videos en cosa de segundos, y sin tener siquiera que saber utilizar una cámara o un programa de edición. La clave está en saber manejar estas herramientas y darles un uso creativo para nuestro beneficio, más allá de la “magia” que estas puedan traer.

Columnas al director

El contenido vertido en esta columna de opinión es de exclusiva responsabilidad de su autor y no refleja necesariamente la posición de Tabulado y su equipo editorial