Runway, pioneiro nas ferramentas de criação multimídia alimentadas por IA, introduziu esta semana o
Gen-4 Turbo, uma versão aprimorada de seu modelo
Gen-4 apresentado no final de março. Permitindo a criação de sequências de vídeo de 5 a 10 segundos a partir de uma imagem de entrada e uma descrição textual, a família Gen-4 atende a um amplo espectro de usuários, desde criadores independentes até profissionais do audiovisual e publicitários.
A série Gen-4 é projetada para produzir sequências visuais coerentes e expressivas a partir de uma imagem de referência e uma descrição textual. Representa, segundo a
Runway, um novo avanço em direção ao que chama de "General World Model", um sistema de IA que constrói uma representação interna de um ambiente e a utiliza para simular eventos futuros nesse ambiente. Tal modelo será capaz de representar e simular uma ampla gama de situações e interações, como as encontradas no mundo real.
Gen-4 se integra naturalmente nas cadeias de produção audiovisual, ao lado de conteúdos live-action, animados ou gerados por efeitos visuais. O sistema permite gerar vídeos de 5 ou 10 segundos, a 24 quadros por segundo, em diferentes formatos de imagem adaptados para plataformas digitais (16:9, 9:16, 1:1, 21:9, ...). O processo é baseado em uma imagem de entrada obrigatória, que atua como ponto de partida visual, e um prompt textual focado na descrição do movimento desejado. Nenhuma fase de treinamento personalizado é necessária: os modelos são imediatamente operacionais.
Dois modelos para usos complementares
Gen-4 Turbo foi otimizado para iteração rápida, com um custo reduzido de 5 créditos por segundo. Levando apenas 30 segundos para gerar um vídeo de 10 segundos, ele permite explorar múltiplas variantes em pouco tempo. Gen-4 padrão é mais caro (12 créditos/segundo) e pode levar até alguns minutos para gerar um vídeo da mesma duração. No entanto, oferece uma qualidade aumentada, útil para versões finais.
Runway recomenda assim testar primeiro as ideias no Turbo, antes de refiná-las com Gen-4, se necessário. As gerações são ilimitadas no modo Explorer, que não usa crédito, facilitando a experimentação.
Processo de geração
O usuário deve primeiro ter carregado, selecionado ou criado a imagem de entrada, antes de seguir estas 3 etapas:
Redação do prompt
A imagem importada define o quadro visual inicial (estilo, composição, cores, iluminação), o prompt textual deve especificar as dinâmicas esperadas (movimento, transformação, interação). O limite de texto é fixado em 1.000 caracteres.
Configuração dos parâmetros
É possível definir a duração, a resolução e optar por uma semente fixa, que garantirá gerações com um estilo e movimento similares.
Geração e iteração
O usuário pode então iniciar a geração. Os vídeos podem ser examinados na sessão em curso ou encontrados na biblioteca pessoal de projetos, podendo ser refinados modificando a imagem de entrada ou o prompt textual.
Funcionalidades pós-geração
Várias opções são oferecidas para enriquecer ou ajustar o conteúdo gerado. Elas permitem:
Aplicar um novo estilo visual;
Estender uma cena;
Ajustar o vídeo para corrigir a composição ou o ritmo;
Alinhar com um diálogo através da sincronização labial;
Passar para 4K para uma versão de alta resolução;
Usar o quadro atual como ponto de partida de uma nova geração.
Todo o conjunto de produções é arquivado por sessão, com opções de renomeação, compartilhamento ou download. Essas ferramentas favorecem uma abordagem iterativa, orientada para a precisão visual sem complexidade técnica.
Os primeiros comentários são muito positivos.
Runway, que acaba de levantar 308 milhões de dólares em uma rodada de financiamento liderada pela General Atlantic, valorizando-a em mais de 3 bilhões de dólares, está democratizando tecnologias antes reservadas para grandes produções, abrindo assim novas oportunidades para criadores de conteúdo.
Para entender melhor
O que é um 'Modelo Geral de Mundo' em inteligência artificial e por que é importante?
Um 'Modelo Geral de Mundo' é um sistema de IA capaz de simular eventos futuros construindo uma representação interna de um ambiente. Isso permite que os sistemas de IA compreendam e interajam melhor com o mundo real, abrindo caminho para aplicações mais avançadas e versáteis.
Qual é a evolução histórica das tecnologias de geração de mídia por IA e quais são os marcos importantes?
A evolução das tecnologias de geração de mídia por IA começou com técnicas simples de manipulação de imagens até os modelos avançados de hoje que permitem a criação de sequências de vídeo realistas. Os marcos importantes incluem o desenvolvimento do deep learning, a integração de redes neurais convolucionais e a criação de algoritmos GAN, cada um transformando a forma como a mídia é gerada por IA.