Runway, pionier w narzędziach do tworzenia multimediów zasilanych przez AI, wprowadził w tym tygodniu Gen-4 Turbo, ulepszoną wersję swojego modelu Gen-4 zaprezentowanego pod koniec marca. Umożliwiając tworzenie sekwencji wideo trwających od 5 do 10 sekund na podstawie obrazu wejściowego i opisu tekstowego, rodzina Gen-4 jest skierowana do szerokiego spektrum użytkowników, od niezależnych twórców po profesjonalistów z branży audiowizualnej i reklamodawców.
 
Seria Gen-4 jest zaprojektowana do produkcji spójnych i ekspresyjnych sekwencji wizualnych na podstawie obrazu referencyjnego i opisu tekstowego. Według Runway reprezentuje to nowy krok w kierunku tego, co nazywa "General World Model", systemu AI, który buduje wewnętrzną reprezentację środowiska i używa jej do symulacji przyszłych wydarzeń w tym środowisku. Taki model będzie zdolny do reprezentacji i symulacji szerokiego zakresu sytuacji i interakcji, jak te spotykane w rzeczywistym świecie.
Gen-4 naturalnie integruje się z łańcuchami produkcji audiowizualnej, obok treści wideo na żywo, animowanych lub generowanych przez efekty wizualne. System umożliwia generowanie wideo trwających 5 lub 10 sekund, z 24 klatkami na sekundę, w różnych formatach obrazu dostosowanych do platform cyfrowych (16:9, 9:16, 1:1, 21:9, ...). Proces opiera się na obowiązkowym obrazie wejściowym, który działa jako punkt wyjścia wizualnego, oraz na tekście opisującym pożądany ruch. Nie jest wymagana żadna spersonalizowana faza treningowa: modele są natychmiast operacyjne.

Dwa modele dla komplementarnych zastosowań

Gen-4 Turbo został zoptymalizowany do szybkiej iteracji, z obniżonym kosztem 5 kredytów za sekundę. Generowanie 10-sekundowego wideo zajmuje tylko 30 sekund, co pozwala na eksplorację wielu wariantów w krótkim czasie. Gen-4 standardowy jest bardziej kosztowny (12 kredytów/sekundę) i może zająć kilka minut na wygenerowanie wideo tej samej długości. Jednak oferuje wyższą jakość, przydatną dla wersji końcowych.
Runway zaleca najpierw testowanie pomysłów w Turbo, a następnie ich dopracowanie za pomocą Gen-4, jeśli to konieczne. Generacje są nieograniczone w trybie Explorer, który nie zużywa kredytów, co ułatwia eksperymentowanie.

Proces generacji

Użytkownik musi najpierw załadować, wybrać lub stworzyć obraz wejściowy, przed przystąpieniem do tych 3 kroków:
  1. Redakcja zapytania
    Zaimportowany obraz definiuje początkową ramę wizualną (styl, kompozycję, kolory, oświetlenie), zapytanie tekstowe powinno określać oczekiwaną dynamikę (ruch, transformację, interakcję). Limit tekstu wynosi 1000 znaków.
  1. Konfiguracja parametrów
    Można wtedy zdefiniować czas trwania, rozdzielczość i wybrać stałe ziarno, co zapewni generacje o podobnym stylu i ruchu.
  1. Generacja i iteracja
    Użytkownik może wtedy uruchomić generację. Wideo można przeglądać w bieżącej sesji lub znaleźć w osobistej bibliotece projektów, można je dopracować poprzez zmianę obrazu wejściowego lub zapytania tekstowego.

Funkcje po generacji

Oferowane są różne opcje wzbogacenia lub dostosowania wygenerowanej treści. Pozwalają one na:
  • Zastosowanie nowego stylu wizualnego;
  • Rozszerzenie sceny;
  • Dostosowanie wideo w celu poprawienia kompozycji lub rytmu;
  • Dopasowanie do dialogu dzięki synchronizacji warg;
  • Przejście do 4K dla wersji w wysokiej rozdzielczości;
  • Użycie bieżącej ramki jako punktu wyjścia nowej generacji.
Wszystkie produkcje są archiwizowane na sesję, z opcjami zmiany nazw, udostępniania lub pobierania. Te narzędzia sprzyjają iteracyjnemu podejściu, nakierowanemu na precyzję wizualną bez skomplikowanej techniki.
Pierwsze komentarze są bardzo pozytywne. Runway, który właśnie pozyskał 308 milionów dolarów podczas rundy finansowania prowadzonej przez General Atlantic, wyceniając firmę na ponad 3 miliardy dolarów, demokratyzuje technologie wcześniej zarezerwowane dla dużych produkcji, otwierając nowe możliwości dla twórców treści.

Bardziej zrozumiałe