『アベンジャーズ/エンドゲーム』などの有力マーベル映画の監督であるジョー・ルッソは、Collider との最近のパネルインタビューで、2 年以内に AI が本格的な映画を作成できるようになるだろうと予測しました。
それはかなり楽観的なスケジュールだと言えます。 しかし、私たちは近づいています。
今週はランウェイ、 Google の支援による AI 画像ジェネレーター Stable Diffusion の開発を支援した AI スタートアップは、テキスト プロンプトまたは既存の画像からビデオを生成するモデル Gen-2 をリリースしました。 (Gen-2 は以前はアクセスが制限されており、順番待ちリストに登録されていました。) 2 月に発売された Runway の Gen-1 モデルに続く Gen-2 は、最初に市販されたテキストからビデオへのモデルの 1 つです。
「商用利用可能」は重要な違いです。 テキストからビデオへの変換は、画像やテキストに次ぐ論理的な生成 AI の次のフロンティアであり、特にハイテク大手の間でより大きな焦点となっており、そのうちのいくつかは過去 1 年間にテキストからビデオへのモデルのデモを行っています。 しかし、これらのモデルは依然として研究段階にあり、一部の選ばれたデータ サイエンティストやエンジニア以外はアクセスできません。
もちろん、最初が必ずしも良いというわけではありません。
親愛なる読者の皆さんへの個人的な好奇心とサービスから、私はモデルが何を達成できるのか、そして何を達成できないのかを把握するために、Gen-2 でいくつかのプロンプトを実行しました。 (Runway は現在、約 100 秒の無料ビデオ生成を提供しています。)私の狂気を解消する方法はあまりありませんでしたが、プロまたはアームチェアの監督が見たいであろう、さまざまな角度、ジャンル、スタイルをキャプチャしようとしました。シルバースクリーン、場合によってはラップトップでも。
Gen-2 の制限の 1 つですぐに明らかになったのは、モデルが生成する 4 秒間のビデオのフレームレートです。 それはかなり低く、ところどころスライドショーのようになるまで顕著に低くなります。
不明なのは、これがテクノロジーの問題なのか、それとも計算コストを節約するための Runway の試みなのかです。 いずれにせよ、ポストプロダクション作業を避けたい編集者にとって、Gen-2 は一見魅力のない提案になります。
フレームレートの問題以外にも、Gen-2 で生成されたクリップには、ある種の昔ながらの Instagram フィルターが適用されているかのような、特定の粒状感や曖昧さが共通する傾向があることがわかりました。 「カメラ」(適切な言葉がありませんが)がオブジェクトを囲んだり、オブジェクトに向かって素早くズームしたりしたときにオブジェクトの周囲にピクセル化が生じるなど、他のアーティファクトも所々で発生します。
多くの生成モデルと同様、Gen-2 も物理学や解剖学に関して特に一貫性はありません。 シュルレアリスムが思いついたもののように、Gen-2 が制作したビデオの中の人々の腕と脚は、溶け合ったり、再び離れたりする一方、物体は床に溶けて消え、その反射は歪んで歪みます。 そして、プロンプトに応じて、顔は人形のように見え、光沢のある感情のない目と安っぽいプラスチックを思わせるペースト状の肌を持ちます。
さらに言えば、コンテンツの問題もあります。 Gen-2 はニュアンスを理解するのが難しいようで、プロンプト内の特定の記述子に固執し、他の記述子をランダムに無視しているように見えます。
私が試したプロンプトの 1 つ、「古いカメラで撮影された、『ファウンド フッテージ』映画のスタイルで水中のユートピアのビデオ」は、そのようなユートピアをもたらしませんでした。一人称のスキューバ ダイビングのように見えるものだけをもたらしました。名もなきサンゴ礁。 Gen-2 は他のプロンプトにも苦労し、特に「遅いズーム」を要求するプロンプトに対してズームイン ショットを生成できず、平均的な宇宙飛行士の見た目を完全には再現できませんでした。
問題は Gen-2 のトレーニング データ セットにあるのでしょうか? 多分。
Gen-2 は安定拡散と同様に拡散モデルであり、完全にノイズで構成された開始画像から徐々にノイズを差し引いて、段階的にプロンプトに近づける方法を学習します。 拡散モデルは、数百万から数十億の例に対するトレーニングを通じて学習します。 学術的には 紙 Gen-2のアーキテクチャの詳細についてランウェイは、このモデルは2億4000万枚の画像と640万枚のビデオクリップからなる内部データセットでトレーニングされたと述べている。
例の多様性が重要です。 データセットに、たとえばアニメーションのフッテージがあまり含まれていない場合、モデルは基準点を欠いているため、妥当な品質のアニメーションを生成できません。 (もちろん、アニメーションといっても幅広い分野ですので、データセットが した アニメや手描きのアニメーションのクリップがある場合、モデルは必ずしも適切に一般化できるわけではありません。 全て アニメーションの種類。)
プラス面としては、Gen-2 は表面レベルのバイアス テストに合格しています。 DALL-E 2 のような生成 AI モデルは、主に白人男性を描いた「CEO やディレクター」などの権威ある地位の画像を生成し、社会的偏見を強化することがわかっていますが、Gen-2 はその内容がほんの少しだけ多様性に富んでいました。少なくとも私のテストではそれが生成されました。
「会議室に入る CEO のビデオ」というプロンプトを入力すると、Gen-2 は会議テーブルのようなものの周りに座る男性と女性 (ただし女性よりも男性の方が多いですが) のビデオを生成しました。 一方、「オフィスで働く医師のビデオ」というプロンプトの出力には、机の後ろにいるどこかアジア人の女性医師が描かれています。
ただし、「看護師」という単語を含むプロンプトの結果はあまり期待できず、一貫して若い白人女性が示されていました。 「テーブルを待っている人」というフレーズも同様です。 明らかに、やるべきことはあります。
私にとって、これらすべてから得られることは、Gen-2 はビデオ ワークフローにおいて真に役立つツールというよりも、目新しいものやおもちゃであるということです。 出力をより一貫したものに編集できないでしょうか? 多分。 ただし、ビデオによっては、最初から映像を撮影するよりも多くの作業が必要になる可能性があります。
そんなことはあってはならない それも テクノロジーを否定する。 ここでの Runway の成果は印象的で、テキストからビデオへのパンチでテクノロジー大手を効果的に打ち負かしました。 そして、フォトリアリズムや多くのカスタマイズ性を必要としない Gen-2 の用途を見つけるユーザーもいると思います。 (ランウェイ CEO クリストバル・バレンズエラ 最近 氏はブルームバーグに対し、Gen-2 はアーティストやデザイナーに創造的なプロセスを支援するツールを提供する方法だと考えていると語った。)
私自身もそうでした。 Gen-2 は、アニメやクレイメーションなど、低いフレームレートに適したさまざまなスタイルを実際に理解できます。 少しいじったり編集したりすれば、いくつかのクリップをつなぎ合わせて物語的な作品を作成することも不可能ではありません。
ディープフェイクの可能性を心配しないように、Runway は AI と人間によるモデレーションを組み合わせて、ユーザーがポルノ、暴力的なコンテンツ、または著作権を侵害するビデオを生成するのを防止していると述べています。 コンテンツ フィルターがあることは確認できましたが、実際のところ、過剰なフィルターです。 しかし、もちろん、これらは確実な方法ではないため、実際にどれだけうまく機能するかを確認する必要があります。
しかし、少なくとも今のところ、映画制作者、アニメーター、CGI アーティスト、倫理学者は安心してよいでしょう。 Runway の技術が映画品質の映像の生成に近づくまでには、少なくとも数回の反復が必要になるだろう — それが実現すると仮定すると。