Googleは、DeepMindとGoogle Brainを1つの大きなAIチームに統合したばかりで、水曜日には、新しいGoogle DeepMindが、同社のビジュアル言語モデル(VLM)の1つを、見つけやすさを高めるためにYouTubeショートの説明を生成するためにどのように使用しているかについて詳細を共有した。
「ショート動画はわずか数分で作成されますが、説明や役立つタイトルが含まれていないことが多いため、検索で見つけるのが難しくなります。」 DeepMindが投稿に書いた。 Flamingo は、ビデオの最初のフレームを分析して何が起こっているかを説明することで、これらの説明を作成できます。 (DeepMind は、「頭の上でクラッカーの束のバランスをとっている犬」の例を挙げています。) テキストの説明はメタデータとして保存され、「ビデオをより適切に分類し、検索結果を視聴者のクエリに一致させる」ことができます。
これで本当の問題が解決すると、Google DeepMind の最高ビジネス責任者の Colin Murdoch 氏は語ります。 ザ・ヴァージ: ショート動画の場合、動画の作成プロセスが長編動画よりも合理化されるため、クリエイターはメタデータを追加しないことがあります。 ショートのプロダクト管理ディレクターであるトッド シャーマン氏は、ショートは主にフィードで視聴され、ユーザーは積極的に動画を閲覧するのではなく、次の動画にスワイプするだけであるため、メタデータを追加する動機はあまりないと付け加えました。
「この Flamingo モデル、つまりこれらのビデオを理解し、説明的なテキストを提供する機能は、すでにこのメタデータを探しているシステムを支援するのに非常に価値があります」とシャーマン氏は言います。 「これにより、ユーザーはこれらのビデオをより効果的に理解できるようになり、ユーザーがビデオを検索しているときに、そのビデオを適切に検索できるようになります。」
生成された説明はユーザー向けではありません。 「私たちが話しているのは、舞台裏にあるメタデータのことです」とシャーマン氏は言います。 「私たちはそれをクリエイターには提示しませんが、それが正確であることを確認するために多大な努力が払われています。」 Google がこれらの説明が正確であることをどのように確認しているかについて、「すべての説明文は私たちの責任基準に沿ったものになります」とシャーマン氏は言います。 「ビデオを何らかの理由で悪い光でフレーム化するような説明的なテキストが生成される可能性はほとんどありません。 それは我々がまったく予想していた結果ではない。」
Flamingo はすでに、自動生成された説明を新しいショート動画のアップロードに適用しています
DeepMind の広報担当者 Duncan Smith 氏によると、Flamingo はすでに、新しいショート動画のアップロードに自動生成された説明を適用しており、「最も視聴されている動画を含む既存の動画の大規模なコーパス」にも適用しているという。
私は、Flamingo が将来的に YouTube の長編ビデオに適用されるかどうかを尋ねなければなりませんでした。 「その可能性は十分に考えられると思います」とシャーマン氏は言う。 「おそらくその必要性は少しは減ると思いますが。」 彼は、長い形式のビデオの場合、クリエイターはプリプロダクション、撮影、編集などの作業に何時間も費やす可能性があるため、メタデータの追加はビデオ作成プロセスの比較的小さな部分であると指摘します。 また、ユーザーはタイトルやサムネイルなどに基づいて長い形式の動画を視聴することが多いため、動画を作成するクリエイターは見つけやすさに役立つメタデータを追加する動機があります。
したがって、その答えは、様子見する必要があると思います。 しかし、提供するほぼすべてのものにAIを導入するというGoogleの大々的な推進を考えると、FlamingoのようなものをYouTubeの長編ビデオに適用することは可能性の範囲外とは思えず、将来的にはYouTubeの検索に大きな影響を与える可能性がある。