Runway、AIによって強化されたマルチメディア作成ツールのパイオニアが今週、Gen-4 Turboを発表しました。これは3月末に発表されたGen-4の改良版であり、入力画像とテキスト記述から5秒から10秒のビデオシーケンスを作成することができます。Gen-4ファミリーは、独立したクリエイターからオーディオビジュアルの専門家、広告業界に至るまで、幅広いユーザーを対象としています。
Gen-4シリーズは、参照画像とテキスト記述から一貫した表現豊かなビジュアルシーケンスを生成するよう設計されています。Runwayによると、これは「General World Model」と呼ばれる次のステップであり、環境の内部表現を構築し、その環境内の将来のイベントをシミュレーションするAIシステムです。このようなモデルは、現実世界で遭遇するさまざまな状況やインタラクションを表現し、シミュレーションする能力を持ちます。
Gen-4は、ライブアクションやアニメーション、視覚効果で生成されたコンテンツと並んで、オーディオビジュアル制作のチェーンに自然に統合されます。このシステムにより、5秒または10秒のビデオを24フレーム/秒で生成し、デジタルプラットフォームに適した異なる画像フォーマット(16:9、9:16、1:1、21:9など)で提供できます。プロセスは必須の入力画像を基にし、それが視覚的な出発点として機能し、動きの説明に焦点を当てたテキストプロンプトを使用します。カスタマイズされたトレーニングフェーズは必要なく、モデルは即座に操作可能です。
補完的な用途のための2つのモデル
Gen-4 Turboは迅速な反復を目指して最適化されており、1秒あたり5クレジットのコストで、10秒のビデオを生成するのにわずか30秒しかかかりません。これにより、短時間でさまざまなバリエーションを探索できます。一方、Gen-4標準版はより高価で(12クレジット/秒)、同じ長さのビデオを生成するのに数分かかる場合があります。しかし、最終版に有用な高品質を提供します。
RunwayはまずTurboでアイデアをテストし、必要に応じてGen-4でそれを洗練することを推奨しています。Explorerモードでは無制限の生成が可能であり、クレジットを使用せずに実験を容易にします。
生成プロセス
ユーザーはまず、入力画像をアップロード、選択、または作成する必要があります。その後、次の3つのステップを行います:
- プロンプトの作成インポートされた画像は初期のビジュアルフレーム(スタイル、構成、色、照明)を定義し、テキストプロンプトは期待される動的操作(動き、変形、相互作用)を指定する必要があります。テキストの制限は1,000文字です。
- パラメーターの設定次に、期間、解像度を設定し、一定のシードを選択して、同様のスタイルと動きの生成を保証できます。
- 生成と反復ユーザーは生成を開始できます。ビデオは現在のセッションで確認することも、個人のプロジェクトライブラリで見つけることもでき、入力画像またはテキストプロンプトを変更して微調整できます。
生成後の機能
生成されたコンテンツを充実させたり調整したりするための複数のオプションが提供されています。それにより:
- 新しいビジュアルスタイルを適用する;
- シーンを拡張する;
- ビデオを調整して構成やリズムを修正する;
- リップシンクによりダイアログと整列させる;
- 4Kにアップスケールして高解像度版を作成する;
- 現在のフレームを新しい生成の出発点として使用する。
すべてのプロダクションはセッションごとにアーカイブされ、名前変更、共有、ダウンロードのオプションがあります。これらのツールは、技術的な複雑さを伴わないビジュアル精度に向けた反復的なアプローチを促進します。
最初のフィードバックは非常に好意的です。Runwayは、General Atlanticが主導するラウンドで3億800万ドルを調達し、評価額を30億ドル以上とし、かつては大規模なプロダクションにのみ利用可能だった技術を民主化し、コンテンツクリエーターに新しい機会を開いています。