Runway, pionero en herramientas de creación multimedia impulsadas por IA, introdujo esta semana Gen-4 Turbo, una versión mejorada de su modelo Gen-4 presentado a finales de marzo. Permitiendo la creación de secuencias de video de 5 a 10 segundos a partir de una imagen de entrada y una descripción textual, la familia Gen-4 está dirigida a un amplio espectro de usuarios, desde creadores independientes hasta profesionales del audiovisual y publicistas.
 
La serie Gen-4 está diseñada para producir secuencias visuales coherentes y expresivas a partir de una imagen de referencia y una descripción textual. Representa, según Runway, un nuevo avance hacia lo que ellos llaman un "Modelo General del Mundo", un sistema de IA que construye una representación interna de un entorno y lo utiliza para simular eventos futuros en ese entorno. Un modelo así será capaz de representar y simular una amplia gama de situaciones e interacciones, como las encontradas en el mundo real.
Gen-4 se integra naturalmente en las cadenas de producción audiovisual, junto a contenidos de acción en vivo, animados o generados por efectos visuales. El sistema permite generar videos de 5 o 10 segundos, en 24 fotogramas por segundo, en diferentes formatos de imagen adaptados a plataformas digitales (16:9, 9:16, 1:1, 21:9, ...). El proceso se basa en una imagen de entrada obligatoria, que actúa como punto de partida visual, y una solicitud textual centrada en la descripción del movimiento deseado. No se requiere una fase de entrenamiento personalizada: los modelos están inmediatamente operativos.

Dos modelos para usos complementarios

Gen-4 Turbo ha sido optimizado para la iteración rápida, con un costo reducido de 5 créditos por segundo. Toma solo 30 segundos generar un video de 10 segundos, lo que permite explorar múltiples variantes en poco tiempo. Gen-4 estándar es más costoso (12 créditos/segundo) y puede tomar hasta unos minutos para generar un video de la misma duración. Sin embargo, ofrece una calidad aumentada, útil para las versiones finales.
Runway recomienda así probar primero las ideas en Turbo, antes de afinarlas con Gen-4 si es necesario. Las generaciones son ilimitadas en el modo Explorer, que no usa créditos, lo que facilita la experimentación.

Proceso de generación

El usuario debe primero haber descargado, seleccionado o creado la imagen de entrada, antes de seguir estos 3 pasos:
  1. Redacción de la solicitud
    La imagen importada define el marco visual inicial (estilo, composición, colores, iluminación), la solicitud textual debe precisar las dinámicas esperadas (movimiento, transformación, interacción). El límite de texto está fijado en 1,000 caracteres.
  1. Configuración de los parámetros
    Es posible entonces definir la duración, la resolución, y optar por una semilla fija, que garantizará generaciones con un estilo y un movimiento similares.
  1. Generación e iteración
    El usuario puede entonces iniciar la generación. Los videos pueden ser examinados en la sesión en curso o encontrados en la biblioteca personal de proyectos, pueden ser refinados modificando la imagen de entrada o la solicitud textual.

Funcionalidades post-generación

Se ofrecen varias opciones para enriquecer o ajustar el contenido generado. Permiten:
  • Aplicarle un nuevo estilo visual;
  • Extender una escena;
  • Ajustar el video para corregir la composición o el ritmo;
  • Alinear con un diálogo gracias a la sincronización labial;
  • Pasar a 4K para una versión de alta resolución;
  • Usar el marco actual como punto de partida de una nueva generación.
El conjunto de producciones se archiva por sesión, con opciones de renombrado, compartición o descarga. Estas herramientas favorecen un enfoque iterativo, orientado hacia la precisión visual sin complejidad técnica.
Los primeros comentarios son muy positivos. Runway, que acaba de recaudar 308 millones de dólares en una ronda de financiación liderada por General Atlantic, valorándola en más de 3 mil millones de dólares, democratiza tecnologías anteriormente reservadas para grandes producciones, abriendo así nuevas oportunidades para los creadores de contenido.

Para entender mejor

¿Qué es un 'Modelo General del Mundo' en inteligencia artificial y por qué es importante?

Un 'Modelo General del Mundo' es un sistema de IA capaz de simular eventos futuros construyendo una representación interna de un entorno. Esto permite a los sistemas de IA comprender e interactuar mejor con el mundo real, abriendo posibilidades para aplicaciones más avanzadas y versátiles.

¿Cuál es la evolución histórica de las tecnologías de generación de medios por IA y cuáles son los hitos clave?

La evolución de las tecnologías de generación de medios por IA comenzó con técnicas simples de manipulación de imágenes hasta llegar a los modelos avanzados actuales que permiten la creación de secuencias de video realistas. Los hitos clave incluyen el desarrollo del deep learning, la integración de redes neuronales convolucionales y la creación de algoritmos GAN, cada uno transformando la forma en que se generan los medios por IA.