過去 2 年間で、AI を利用した画像ジェネレータは、この技術が広く利用可能になり、周囲の技術的障壁が減少したことにより、多かれ少なかれ商品化されました。 これらは、Google や Microsoft を含むほぼすべての主要なテクノロジー企業によって導入されているだけでなく、ますます収益性の高い生成型 AI のパイの一部を獲得しようとしている数え切れないほどのスタートアップ企業にも導入されています。
それは、パフォーマンスの点で、まだ一貫性があることを示唆するものではなく、一貫性からは程遠いです。 画像ジェネレーターの品質は向上していますが、それは漸進的で、時には苦痛を伴う進歩でした。
しかしメタ氏は突破口があったと主張する。
本日、Meta は CM3Leon (不器用な言葉で「カメレオン」) を発表しました リーツピーク)、同社が主張する AI モデルは、テキストから画像への生成において最先端のパフォーマンスを実現します。 CM3Leon は、画像のキャプションを生成できる最初の画像ジェネレーターの 1 つであることも特徴であり、今後のより有能な画像理解モデルの基礎を築くとメタ氏は言います。
「CM3Leon の機能を使用すると、画像生成ツールは入力プロンプトによく従う、より一貫性のある画像を生成できるようになります」と Meta 氏は今週初めに TechCrunch と共有したブログ投稿で書いています。 「さまざまなタスクにわたる CM3Leon の優れたパフォーマンスは、より忠実度の高い画像の生成と理解への一歩となると信じています。」
OpenAI の DALL-E 2、Google の Imagen、Stable Diffusion など、最新の画像ジェネレーターのほとんどは、アートを作成するために拡散と呼ばれるプロセスに依存しています。 拡散では、モデルは完全にノイズで構成される開始画像からノイズを徐々に差し引く方法を学習し、画像をターゲット プロンプトに段階的に近づけます。
結果は驚くべきものでした。 しかし、拡散は計算量を多く必要とするため、運用コストが高くつき、処理速度も遅くなり、ほとんどのリアルタイム アプリケーションは実用的ではありません。
対照的に、CM3Leon は、テキストや画像などの入力データの関連性を評価する「アテンション」と呼ばれるメカニズムを利用するトランスフォーマー モデルです。 注意やトランスフォーマーのその他のアーキテクチャ上の特徴により、モデルのトレーニング速度が向上し、モデルをより簡単に並列化できます。 換言すれば、トランスフォーマーの大型化は、大幅ではあるが達成できないほどのコンピューティング能力の向上を伴ってトレーニングできるようになります。
そしてCM3Leonは偶数です もっと ほとんどのトランスフォーマーよりも効率的であり、以前のトランスフォーマーベースの方法に比べて必要な計算量とトレーニング データセットが 5 倍少なくなるとメタ氏は主張しています。
興味深いことに、OpenAI は数年前に、と呼ばれるモデルを使用して、画像生成の手段としてトランスフォーマーを研究しました。 画像GPT。 しかし、最終的には普及を優先してそのアイデアを放棄し、すぐに「一貫性」に移行する可能性があります。
CM3Leon をトレーニングするために、Meta は Shutterstock からライセンスを取得した何百万もの画像のデータセットを使用しました。 Meta が構築した CM3Leon のいくつかのバージョンの中で最も高性能なものには、DALL-E 2 の 2 倍を超える 70 億個のパラメータがあります。(パラメータはトレーニング データから学習されたモデルの一部であり、本質的に問題に対するモデルのスキルを定義します。テキストの生成、この場合は画像の生成など)。
CM3Leon のパフォーマンスを向上させる鍵の 1 つは、教師あり微調整 (略して SFT) と呼ばれる手法です。 SFT は、OpenAI の ChatGPT などのテキスト生成モデルをトレーニングして大きな効果をもたらすために使用されてきましたが、Meta は、SFT を画像ドメインに適用すると役立つ可能性があると理論付けしました。 実際、命令チューニングによって CM3Leon のパフォーマンスは画像生成だけでなく画像キャプションの書き込みにおいても向上し、テキスト命令 (例: 「空の色を明るい青に変更する」) に従って画像に関する質問に答えたり、画像を編集したりできるようになりました。
ほとんどの画像ジェネレーターは、制約が多すぎる「複雑な」オブジェクトやテキスト プロンプトに対処するのに苦労します。 しかし、CM3Leon はそうではありません。少なくとも、それほど頻繁ではありません。 厳選したいくつかの例では、Meta は CM3Leon に、「サハラ砂漠の麦わら帽子とネオンサングラスをかぶった小さなサボテン」、「人間の手のクローズアップ写真、手のモデル」、「メインのアライグマ」などのプロンプトを使用して画像を生成させました。サムライソードとの壮大な戦いの準備をしているアニメのキャラクター」と「「1991」という文字が入ったファンタジースタイルの一時停止標識」。
比較のために、DALL-E 2 で同じプロンプトを実行しました。結果の一部は近似しました。 しかし、CM3Leon の画像は一般的にプロンプトに近く、私の目にはより詳細に表示され、看板が最も明白な例でした。 (最近まで、拡散モデルはテキストと人間の解剖学の両方を比較的うまく処理できませんでした。)
CM3Leon は、既存の画像を編集するための指示も理解できます。 たとえば、「位置 (199, 130) にボトルがある『シンクと鏡がある部屋』の高品質画像を生成する」というプロンプトが与えられた場合、モデルは視覚的に一貫したものを生成できます。メタ氏が言うように、 「状況に応じて適切」 – 部屋、洗面台、鏡、ボトルなどすべて。 DALL-E 2 は、このようなプロンプトのニュアンスをまったく理解できず、プロンプトで指定されたオブジェクトを完全に省略してしまうことがあります。
そしてもちろん、DALL-E 2 とは異なり、CM3Leon はさまざまなプロンプトに従って、短いまたは長いキャプションを生成し、特定の画像に関する質問に答えることができます。 これらの分野では、このモデルは、トレーニング データ内のテキストが少ないにもかかわらず、特殊な画像キャプション モデル (Flamingo、OpenFlamingo など) よりも優れたパフォーマンスを示したと Meta は主張しています。
しかし、偏見についてはどうでしょうか? 結局のところ、DALL-E 2 のような生成 AI モデルは、主に白人男性を描いた「CEO」や「取締役」などの権威ある地位の画像を生成し、社会的偏見を強化することが判明しています。 Meta 氏はその疑問には触れず、CM3Leon は「トレーニング データに存在するあらゆるバイアスを反映できる」とだけ述べています。
「AI業界が進化し続けるにつれて、CM3Leonのような生成モデルはますます洗練されています」と同社は書いている。 「業界はまだこれらの課題を理解し、対処する初期段階にありますが、進歩を加速するには透明性が鍵になると信じています。」
Meta は CM3Leon をリリースする予定があるかどうか、あるいはいつリリースする予定であるかについては明らかにしなかった。 オープンソースのアート ジェネレーターの周りで渦巻いている論争を考えると、私は息を止めるつもりはありません。