Meta の Make-A-Video に負けないように、Google は本日、その取り組みについて詳しく説明しました。 イメージビデオ、 テキスト プロンプト (「テディベアが皿洗い」など) を入力すると、ビデオ クリップを生成できる AI システム。 結果は完璧ではありませんが (システムが生成するループ クリップにはアーティファクトとノイズが含まれる傾向があります)、Google は、Imagen Online video は「高度な制御性」とフッテージを生成する機能を含む世界的な知識を備えたシステムへの一歩であると主張しています。芸術的なスタイルの範囲で。
同僚の Devin Coldewey が Make-A-Movie に関する記事で指摘したように、テキストからビデオへのシステムは新しいものではありません。 今年初め、清華大学と北京人工知能学院の研究者グループが CogVideo をリリースしました。CogVideo は、テキストをかなり忠実度の高い短いクリップに変換できます。 しかし、Imagen Video clip は、既存のシステムでは理解が困難なキャプションをアニメーション化する適性を示しており、これまでの最先端技術を大幅に上回っているようです。
アルバータ大学で AI と機械学習を研究している助教授の Matthew Guzdial 氏は、TechCrunch にメールで次のように語った。 「ビデオの例からわかるように、通信チームが最適な出力を選択しているにもかかわらず、奇妙なぼやけと人工的なものがまだ残っています。 したがって、これがすぐにアニメーションやテレビで直接使用されることは間違いありません。 しかし、それまたはそれに類するものは、いくつかのことをスピードアップするのに役立つツールに確実に組み込まれる可能性があります。」
Imagen Online video は、OpenAI の DALL-E 2 および Steady Diffusion に匹敵する画像生成システムである Google の Imagen を基に構築されています。 Imagen は「拡散」モデルとして知られているもので、多くの既存のデータ サンプルを「破壊」および「回復」する方法を学習することによって、新しいデータ (ビデオなど) を生成します。 既存のサンプルが供給されると、モデルは、以前に破壊したデータを回復して新しい作品を作成する能力が向上します。
Imagen Video の背後にある Google の研究チームが説明しているように、 紙、システムはテキストの説明を受け取り、24 x 48 ピクセルの解像度で 16 フレーム、毎秒 3 フレームのビデオを生成します。 次に、システムは追加のフレームをアップスケールして「予測」し、最終的な 128 フレーム、毎秒 24 フレームのビデオを 720p (1280 x 768) で生成します。
Google によると、Imagen Movie は、1,400 万の動画とテキストのペア、6,000 万の画像とテキストのペア、および公開されている LAION-400M の画像とテキストのデータセットでトレーニングされており、さまざまな美学に一般化することができました。 (それほど偶然ではありませんが、LAION の一部が Secure Diffusion のトレーニングに使用されました。) 実験では、Imagen Video clip がゴッホの絵画や水彩画のスタイルのビデオを作成できることがわかりました。 おそらくもっと印象的なのは、Imagen Movie が深度と 3 次元性の理解を実証したことで、ドローンのフライスルーのようなビデオを作成して、オブジェクトを歪ませることなく回転させ、さまざまな角度からキャプチャできると主張していることです。
現在利用可能な画像生成システムを大幅に改善した点で、Imagen Video clip はテキストを適切にレンダリングすることもできます。 Secure Diffusion と DALL-E 2 はどちらも、「「Diffusion」のロゴ」などのプロンプトを読み取り可能なタイプに変換するのに苦労していますが、Imagen Video は、少なくとも論文から判断すると、問題なくレンダリングします。
これは、Imagen Video clip に制限がないことを示唆しているわけではありません。 Make-A-Video の場合と同様に、Imagen Online video から選りすぐりのクリップでさえ、Guzdial がほのめかしたように、物理的に不自然な、そして不可能な方法でオブジェクトが混ざり合って、部分的にぎくしゃくして歪んでいます。
「全体として、テキストからビデオへの問題はまだ解決されておらず、すぐに DALL-E 2 や Midjourney のような品質に到達する可能性は低いです」と Guzdial 氏は続けます。
これを改善するために、Imagen Video チームは次のことを計画しています。 力を合わせる 後ろの研究者たちと フェナキ、別の Google テキストからビデオへのシステムが今日デビューしました。これは、長くて詳細なプロンプトを 2 分以上のビデオに変換できますが、品質は低下します.
チーム間のコラボレーションがどこにつながるかを見るために、フェナキのカーテンを少し剥がす価値があります. Imagen Movie は品質に重点を置いていますが、Phenaki は一貫性と長さを優先しています。 このシステムは、パラグラフの長さのプロンプトを、オートバイに乗っている人のシーンから未来都市の上空を飛んでいるエイリアンの宇宙船まで、任意の長さの映画に変えることができます。 Phenaki で生成されたクリップは、Imagen Video と同じ不具合に悩まされていますが、それらがそれらを促した長く微妙なテキストの説明にどれだけ忠実に従っているかは注目に値します.
たとえば、Phenaki に入力されたプロンプトは次のとおりです。
未来都市の交通量が多い。 エイリアンの宇宙船が未来都市に到着します。 カメラはエイリアンの宇宙船の中に入ります。 カメラは、青い部屋に宇宙飛行士が映るまで前方に移動します。 宇宙飛行士がキーボードで入力しています。 カメラが宇宙飛行士から遠ざかります。 宇宙飛行士はキーボードを離れ、左に歩きます。 宇宙飛行士はキーボードを離れて立ち去ります。 カメラは宇宙飛行士を超えて移動し、画面を見ます。 宇宙飛行士の背後にあるスクリーンには、海を泳ぐ魚が表示されます。 青魚にクラッシュズーム。 暗い海を泳ぐ青い魚を追いかけます。 カメラは水越しに空を見上げます。 未来都市の海と海岸線。 未来的な超高層ビルに向かってクラッシュ ズームします。 カメラは多くのウィンドウの 1 つにズームインします。 私たちは空の机のある事務室にいます。 事務机の上をライオンが走っています。 カメラは、オフィス内のライオンの顔にズームインします。 事務室でダークスーツを着たライオンをズームアウトします。 身に着けているライオンはカメラを見て微笑みます。 カメラは超高層ビルの外観にゆっくりとズームアウトします。 近代的な都市の日没のタイムラプス。
そして、生成されたビデオは次のとおりです。
Imagen Movie に戻ると、システムのトレーニングに使用されたデータに問題のあるコンテンツが含まれていたため、Imagen Video がグラフィック的に暴力的または性的に露骨なクリップを作成する可能性があることにも注目しています。 Google は、「これらの懸念が緩和されるまで」Imagen Video モデルやソース コードをリリースしないと述べており、Meta とは異なり、興味を登録するためのサインアップ フォームを提供する予定はありません。
それでも、テキストからビデオへの技術が急速に進歩しているため、オープンソース モデルが出現するのにそれほど時間はかからない可能性があります。人間の創造性を大幅に強化し、ディープフェイク、著作権、および誤報に関する扱いにくい課題を提示します。