Runway, Pionier im Bereich der KI-gestützten Multimedia-Erstellungstools, hat diese Woche
Gen-4 Turbo eingeführt, eine verbesserte Version seines Modells
Gen-4, das Ende März vorgestellt wurde. Die Gen-4-Familie ermöglicht die Erstellung von Video-Sequenzen von 5 bis 10 Sekunden aus einem Eingabebild und einer Textbeschreibung und richtet sich an ein breites Spektrum von Nutzern, von unabhängigen Kreativen bis hin zu Fachleuten aus der audiovisuellen Branche und Werbetreibenden.
Die Gen-4-Serie ist darauf ausgelegt, kohärente und ausdrucksstarke visuelle Sequenzen aus einem Referenzbild und einer Textbeschreibung zu erzeugen. Sie stellt laut
Runway einen weiteren Fortschritt hin zu dem dar, was als "General World Model" bezeichnet wird, einem KI-System, das eine interne Darstellung einer Umgebung aufbaut und diese nutzt, um zukünftige Ereignisse in dieser Umgebung zu simulieren. Ein solches Modell wird in der Lage sein, eine breite Palette von Situationen und Interaktionen abzubilden und zu simulieren, wie sie in der realen Welt vorkommen. Gen-4 lässt sich nahtlos in audiovisuelle Produktionsketten integrieren, neben Live-Action-Inhalten, animierten oder visuell erzeugten Inhalten. Das System ermöglicht die Erstellung von Videos mit 5 oder 10 Sekunden Länge, bei 24 Bildern pro Sekunde, in verschiedenen Bildformaten, die an digitale Plattformen angepasst sind (16:9, 9:16, 1:1, 21:9, ...). Der Prozess basiert auf einem obligatorischen Eingabebild, das als visueller Ausgangspunkt dient, und einer textuellen Eingabeaufforderung, die sich auf die Beschreibung der gewünschten Bewegung konzentriert. Es ist keine personalisierte Trainingsphase erforderlich: Die Modelle sind sofort einsatzbereit.
Zwei Modelle für ergänzende Anwendungen
Gen-4 Turbo wurde für schnelle Iterationen optimiert und kostet 5 Credits pro Sekunde. Es benötigt nur 30 Sekunden, um ein 10-Sekunden-Video zu generieren, was ermöglicht, in kurzer Zeit mehrere Varianten zu erkunden. Gen-4 Standard ist teurer (12 Credits/Sekunde) und kann einige Minuten benötigen, um ein Video derselben Länge zu generieren. Es bietet jedoch eine verbesserte Qualität, die für Endversionen nützlich ist.
Runway empfiehlt daher, zunächst Ideen mit Turbo zu testen, bevor sie bei Bedarf mit Gen-4 verfeinert werden. Die Generierungen sind im Explorer-Modus unbegrenzt, der keine Credits verwendet, was das Experimentieren erleichtert.
Generierungsprozess
Der Benutzer muss zunächst das Eingabebild hochgeladen, ausgewählt oder erstellt haben, bevor er diese 3 Schritte ausführt:
Verfassen der Eingabeaufforderung
Das importierte Bild definiert den visuellen Ausgangsrahmen (Stil, Komposition, Farben, Beleuchtung), die textuelle Eingabeaufforderung muss die erwarteten Dynamiken (Bewegung, Transformation, Interaktion) spezifizieren. Die Textbegrenzung ist auf 1.000 Zeichen festgelegt.
Parametereinstellungen
Es ist möglich, die Dauer, die Auflösung und die Wahl eines festen Saatwerts zu definieren, der eine gleichbleibende Stilrichtung und Bewegung sicherstellt.
Generierung und Iteration
Der Benutzer kann dann die Generierung starten. Die Videos können in der laufenden Sitzung überprüft oder in der persönlichen Projektbibliothek gefunden werden und können durch Ändern des Eingabebildes oder der textuellen Eingabeaufforderung verfeinert werden.
Post-Generierungsfunktionen
Es werden mehrere Optionen angeboten, um den generierten Inhalt zu bereichern oder anzupassen. Sie ermöglichen es:
Ihm einen neuen visuellen Stil zu verleihen;
Eine Szene zu erweitern;
Das Video anzupassen, um die Komposition oder den Rhythmus zu korrigieren;
Es mit einem Dialog zu synchronisieren durch Lippenabgleich;
Auf 4K für eine hochauflösende Version umzusteigen;
Den aktuellen Rahmen als Ausgangspunkt für eine neue Generierung zu verwenden.
Alle Produktionen werden pro Sitzung archiviert, mit Optionen zum Umbenennen, Teilen oder Herunterladen. Diese Tools fördern einen iterativen Ansatz, der auf visuelle Präzision ohne technischen Aufwand ausgerichtet ist.
Die ersten Rückmeldungen sind sehr positiv.
Runway, das kürzlich 308 Millionen Dollar in einer von General Atlantic geführten Finanzierungsrunde erhalten hat, wodurch das Unternehmen mit über 3 Milliarden Dollar bewertet wird, demokratisiert Technologien, die einst großen Produktionen vorbehalten waren, und eröffnet neue Möglichkeiten für Content-Ersteller.
Besser verstehen
Was ist ein 'General World Model' in der künstlichen Intelligenz und warum ist es wichtig?
Ein 'General World Model' ist ein KI-System, das in der Lage ist, zukünftige Ereignisse zu simulieren, indem es eine interne Darstellung einer Umgebung erstellt. Dies ermöglicht es KI-Systemen, die reale Welt besser zu verstehen und mit ihr zu interagieren, und ebnet den Weg für fortschrittlichere und vielseitigere Anwendungen.
Wie sieht die historische Entwicklung der KI-Mediengenerierungstechnologien aus und was sind die wichtigsten Meilensteine?
Die Entwicklung der KI-Mediengenerierungstechnologien begann mit einfachen Bildbearbeitungstechniken bis hin zu den heutigen fortschrittlichen Modellen, die die Erstellung realistischer Videosequenzen ermöglichen. Wichtige Meilensteine sind die Entwicklung des Deep Learnings, die Integration von Convolutional Neural Networks und die Erstellung von GAN-Algorithmen, die jeweils die Art und Weise verändern, wie Medien von KI erzeugt werden.