メタの研究者は、AI アート生成分野で大きな飛躍を遂げました メイク・ア・ビデオで、創造的に名前を付けられた新しいテクニックです。ご想像のとおり、テキストプロンプトだけからビデオを作成します。 結果は印象的で多様であり、例外なく、すべてが少し不気味です.
テキストからビデオへのモデルは以前に見たことがあります。これは、プロンプトから静止画を出力する DALL-E のようなテキストから画像へのモデルの自然な拡張です。 しかし、静止画像から動画への概念的なジャンプは、人間の頭脳にとっては小さいものですが、機械学習モデルに実装するのは簡単なことではありません。
Make-A-Video は、実際にはバックエンドでゲームをそれほど変更しません。研究者がそれを説明する論文で指摘しているように、「画像を説明するテキストだけを見たモデルは、短いビデオを生成するのに驚くほど効果的です。」
AI は、画像を作成するために既存の効果的な拡散技術を使用します。これは、基本的に純粋な視覚的静的から逆方向に働き、ターゲット プロンプトに向かって「ノイズ除去」します。 ここで追加されたのは、ラベルのない一連のビデオ コンテンツに対して、モデルが教師なしトレーニング (つまり、人間からの強力なガイダンスなしでデータ自体を調べた) も与えられたことです。
最初から知っていることは、リアルな画像を作成する方法です。 2 番目からわかることは、ビデオの連続するフレームがどのように見えるかです。 驚くべきことに、どのように組み合わせるかについて特別なトレーニングをしなくても、これらを非常に効果的に組み合わせることができます。
「あらゆる面、空間的および時間的解像度、テキストへの忠実度、および品質において、メイク・ア・ビデオは、質的および量的測定の両方によって決定されるように、テキストからビデオへの生成における新しい最先端を設定します。」研究者を書きます。
同意しないのは難しい。 以前のテキストからビデオへのシステムは異なるアプローチを使用しており、結果は印象的ではありませんでしたが、有望でした. 現在、Make-A-Online video はそれらを水から吹き飛ばし、元の DALL-E または他の過去の世代のシステムで、おそらく 18 か月前の画像と一致する忠実度を達成しています。
しかし、言わなければならないのは、彼らにはまだ何かが欠けているということです。 フォトリアリズムや完全に自然な動きを期待する必要はありませんが、結果はすべて…まあ、それ以外の言葉はありません。 悪夢のような、そうではありませんか?
彼らには、夢のような恐ろしい品質があります。 まるでストップモーション映画のように、動きの質が変です。 腐敗とアーティファクトは、オブジェクトが漏れているように、各ピースに毛むくじゃらのシュールな感触を与えます. 人々は互いに溶け合います — オブジェクトの境界や、何かがどこで終了または接触するべきかについての理解がありません。
私はこれらすべてを、最高の高解像度のリアルな画像だけを求めるある種の AI スノッブとは言いません。 これらのビデオが、ある意味では現実的であっても、他の意味では非常に奇妙で不快なものであることは魅力的だと思います. それらが迅速かつ任意に生成できることは信じられないほどであり、さらに良くなるだけです. しかし、最高の画像ジェネレーターでさえ、指で示すのが難しいシュールな品質を備えています。
Make-A-Video を使用すると、静止画像やその他のビデオをその変形または拡張に変換することもできます。これは、画像ジェネレーターが画像自体でプロンプトを表示する方法と同様です。 結果はわずかに邪魔になりません。
これは、以前に存在していたものからの大きなステップアップであり、チームは祝福されるべきです. まだ一般には公開されていませんが、できます ここでサインアップ 後で決定するアクセスの形式に関係なく、リストに載るためです。