ショートビデオ パラパラ漫画のような印象を与え、シュールなフレームから次のフレームへと揺れ動きます。 それらは、インターネットのミーム作成者が、広く利用可能な最初のテキストからビデオへの AI ジェネレーターで遊んだ結果であり、次のような不可能なシナリオを描いています。 ドウェイン・“ザ・ロック”・ジョンソン 石を食べることとフランス大統領 エマニュエル・マクロン ゴミをふるいにかけたり、噛んだり、ありふれたものを歪めたり、 パリス・ヒルトン 自撮り。
AI によって生成されたビデオのこの新しい波は、静止画像で同じトリックを実行した昨年の夏にインターネットを席巻した Dall-E の明確な反響を持っています。 それから 1 年も経たないうちに、これらの不安定な Dall-E の画像は現実とほとんど見分けがつかなくなり、2 つの疑問が生じます。AI が生成したビデオは、これほど急速に進歩するでしょうか。
モデルスコープは、AI 企業の Hugging Face がホストするビデオ ジェネレーターであり、人々はいくつかの単語を入力すると、驚くほど不安定なビデオを受け取ることができます。 画像ジェネレーター Stable Diffusion を共同開発した AI 企業 Runway は、 発表した 3月下旬にテキストからビデオへのジェネレーターを作成しましたが、一般に広く利用できるようにはなっていません。 と グーグル と メタ どちらも、2022 年秋にテキストからビデオへの技術に取り組んでいると発表しました。
今は耳障りな有名人の動画か、テディベアが自画像を描いています。 しかし将来的には、映画における AI の役割はバイラルなミームを超えて進化する可能性があり、テクノロジーが映画のキャスティング、撮影前のシーンのモデル化、さらにはシーン内外での俳優の入れ替えを支援できるようになる可能性があります。 この技術は急速に進歩しており、そのようなジェネレーターがプロンプトに基づいて短編映画全体を制作できるようになるには、おそらく何年もかかるでしょう。 それでも、エンターテインメントにおける AI の可能性は計り知れません。
「Netflix がコンテンツの視聴方法と場所を混乱させたように、AI はそのコンテンツ自体の実際の作成にさらに大きな混乱をもたらすと思います」と未来学者で技術教育会社 WAYE の創設者である Sinead Bovell は言います。
しかし、だからといって、すぐに AI が作家、監督、俳優に完全に取って代わるというわけではありません。 そして、かなりの技術的ハードルがいくつか残っています。 AI モデルは、ビジュアルを滑らかにするために必要なフレーム間の完全な一貫性をまだ維持できないため、ビデオが不安定に見えます。 魅力的でグロテスクな数秒より長く持続し、一貫性を保つコンテンツを作成するには、より多くのコンピューター パワーとデータが必要になります。つまり、技術開発に多額の投資が必要になります。 「これらの画像モデルを簡単にスケールアップすることはできません」と、コーネル大学のコンピューター サイエンスの教授である Bharath Hariharan は言います。
しかし、初歩的なものに見えるとしても、これらのジェネレーターの進歩は「本当に、本当に速く」進んでいると、アレン人工知能研究所の研究科学者であるジアセン ルー (Jiasen Lu) は述べています。
進歩の速さは、発電機を強化した新しい開発の結果です。 ModelScope は、画像ジェネレーターのようにテキストと画像データでトレーニングされ、モデルの動きを示すビデオも供給されます したほうがいい 見てください、と Hugging Face の機械学習アート エンジニアである Apolinário Passos は言います。 これは、によっても使用されている戦術です メタ. ビデオに注釈を付けたり、テキスト記述子でラベルを付けたりする負担がなくなり、プロセスが簡素化され、技術の急速な発展がもたらされました。