Runway, pioniere negli strumenti di creazione multimediale alimentati dall'IA, ha introdotto questa settimana Gen-4 Turbo, una versione migliorata del suo modello Gen-4 presentato a fine marzo. Permettendo la creazione di sequenze video di 5 a 10 secondi a partire da un'immagine di ingresso e da una descrizione testuale, la famiglia Gen-4 si rivolge a un ampio spettro di utenti, dai creatori indipendenti ai professionisti dell'audiovisivo passando per gli inserzionisti.
 
La serie Gen-4 è progettata per produrre sequenze visive coerenti ed espressive a partire da un'immagine di riferimento e da una descrizione testuale. Rappresenta, secondo Runway, un nuovo avanzamento verso quello che chiama un "General World Model", un sistema di IA che costruisce una rappresentazione interna di un ambiente e lo utilizza per simulare eventi futuri in quell'ambiente. Un tale modello sarà capace di rappresentare e simulare un ampio spettro di situazioni e interazioni, come quelle incontrate nel mondo reale.
Gen-4 si integra naturalmente nelle catene di produzione audiovisiva, accanto a contenuti live-action, animati o generati da effetti visivi. Il sistema permette di generare video di 5 o 10 secondi, a 24 fotogrammi al secondo, in diversi formati immagine adatti alle piattaforme digitali (16:9, 9:16, 1:1, 21:9, ...). Il processo si basa su un'immagine di ingresso obbligatoria, che funge da punto di partenza visivo, e un prompt testuale concentrato sulla descrizione del movimento desiderato. Non è richiesta alcuna fase di addestramento personalizzato: i modelli sono immediatamente operativi.

Due modelli per usi complementari

Gen-4 Turbo è stato ottimizzato per l'iterazione rapida, con un costo ridotto di 5 crediti al secondo. Richiedendo solo 30 secondi per generare un video di 10 secondi, permette di esplorare molteplici varianti in poco tempo. Gen-4 standard è invece più costoso (12 crediti/secondo) e può richiedere fino a qualche minuto per generare un video della stessa durata. Tuttavia, offre una qualità superiore, utile per le versioni finali.
Runway raccomanda quindi di testare prima le idee in Turbo, per poi affinarle con Gen-4 se necessario. Le generazioni sono illimitate in modalità Explorer, che non utilizza crediti, facilitando così la sperimentazione.

Processo di generazione

L'utente deve innanzitutto aver caricato, selezionato o creato l'immagine di ingresso, prima di seguire questi 3 passaggi:
  1. Stesura del prompt
    L'immagine importata definisce il quadro visivo iniziale (stile, composizione, colori, illuminazione), il prompt testuale deve specificare le dinamiche attese (movimento, trasformazione, interazione). Il limite di testo è fissato a 1.000 caratteri.
  1. Configurazione dei parametri
    È quindi possibile definire la durata, la risoluzione, e optare per un seed fisso, che garantirà generazioni con uno stile e un movimento simili.
  1. Generazione e iterazione
    L'utente può quindi avviare la generazione. I video possono essere esaminati nella sessione corrente o ritrovati nella libreria personale di progetti, possono essere affinati modificando l'immagine di ingresso o il prompt testuale.

Funzionalità post-generazione

Diverse opzioni sono proposte per arricchire o regolare il contenuto generato. Permettono di:
  • Applicargli un nuovo stile visivo;
  • Estendere una scena;
  • Regolare il video per correggere la composizione o il ritmo;
  • Allinearlo con un dialogo grazie alla sincronizzazione labiale;
  • Passare alla 4K per una versione in alta risoluzione;
  • Utilizzare il frame attuale come punto di partenza per una nuova generazione.
L'insieme delle produzioni è archiviato per sessione, con opzioni di rinominazione, condivisione o download. Questi strumenti favoriscono un approccio iterativo, orientato verso la precisione visiva senza complessità tecnica.
I primi commenti sono molto positivi. Runway, che ha appena raccolto 308 milioni di dollari durante un round di finanziamento guidato da General Atlantic, portandola a una valutazione di oltre 3 miliardi di dollari, democratizza tecnologie un tempo riservate alle grandi produzioni, aprendo così nuove opportunità per i creatori di contenuti.

Per capire meglio

Che cos'è un 'Modello Generale del Mondo' nell'intelligenza artificiale e perché è importante?

Un 'Modello Generale del Mondo' è un sistema di IA capace di simulare eventi futuri costruendo una rappresentazione interna di un ambiente. Ciò consente ai sistemi di IA di comprendere e interagire meglio con il mondo reale, aprendo la strada ad applicazioni più avanzate e versatili.

Qual è l'evoluzione storica delle tecnologie di generazione dei media da parte dell'IA e quali sono le tappe fondamentali?

L'evoluzione delle tecnologie di generazione dei media da parte dell'IA è iniziata con tecniche semplici di manipolazione delle immagini fino ad arrivare ai modelli avanzati di oggi che consentono la creazione di sequenze video realistiche. Le tappe fondamentali includono lo sviluppo del deep learning, l'integrazione delle reti neurali convoluzionali e la creazione di algoritmi GAN, ognuna delle quali ha trasformato il modo in cui i media sono generati dall'IA.