Por Felipe Silberstein, jefe de Estrategia de Plataformas en Apply Digital.
La semana pasada, la industria digital recibió con asombro una muestra de Sora, un sistema de inteligencia artificial que permite la generación de videos a partir de la redacción de un comando en forma de texto.
Y aunque ya existían otros modelos de IA capaces de generar videos, la diferencia de Sora está en la impresionante capacidad y resultados que entrega el modelo, utilizando toda la tecnología y aprendizajes de OpenAI, dueño de ChatGPT y el text-to-image Dall-E.
Los “antiguos” motores de generación de videos trabajan en base a un entrenamiento de imágenes (eje X, Y), mientras que Sora incorpora un tercer eje, logrando que el resultado final sea más consistente y cercano a una toma real, además de entregar consistencia para personajes en diferentes tomas. A estos modelos, que integran y sintetizan conocimientos procedentes de una amplia gama de fuentes para formar una mejor comprensión del mundo, se les está llamando “General World Models”.
El entrenamiento de los lenguajes de IA permiten no solo entender lo que la persona está pidiendo en su texto, sino además cómo adaptarlo al mundo real.
Ahora, solo se necesita un comando y un modelo de lenguaje que entienda lo que estoy diciendo para crear lo que quiera. Lo que resulta de ese comando puede ser un texto diferente (ChatGPT), una imagen (Dall-E, MidJourney), código (CodeGPT, Copilot de Github), sonidos (ElevenLabs) o un video, como es el caso de Sora o Runway, empresa fundada por chilenos.
Esto, sin duda, va a revolucionar la industria de las películas, de los videojuegos e, incluso, cómo nos relacionamos con cosas mucho más cotidianas como una tienda digital. Y es que con Sora ya no es necesario depender de la información del usuario o tener buenas técnicas de predicción para entregar un contenido personalizado; ahora, el input vendrá directamente del comprador, haciendo más cercano el concepto de “Comercio Conversacional”.
Por ejemplo, una mujer buscando unos zapatos que hagan match con su vestido rojo podrá pedirle al e-commerce que le sugiera unos zapatos que combinen con su vestido rojo y que genere un pequeño video para decidir su compra.
Es importante recordar, eso sí, que este tipo de modelos son, al fin y al cabo, herramientas. Pasó con los aviones, que logramos acortar viajes que duraban meses a solo horas; ahora pasamos a generar videos en cosa de segundos, y sin tener siquiera que saber utilizar una cámara o un programa de edición. La clave está en saber manejar estas herramientas y darles un uso creativo para nuestro beneficio, más allá de la “magia” que estas puedan traer.