新しいモデルの背後にある大きなブレークスルーは、画像が生成される方法にあります。 DALL-E の最初のバージョンは、OpenAI の言語モデル GPT-3 の背後にある技術の拡張を使用し、画像内の次のピクセルを文中の単語であるかのように予測して画像を生成しました。 これは機能しましたが、うまくいきませんでした。 「魔法のような体験ではありませんでした」とアルトマンは言います。 「それがまったく機能したことは驚くべきことです。」
代わりに、DALL-E 2 は拡散モデルと呼ばれるものを使用します。 拡散モデルは、トレーニング プロセスで追加されるピクセル化されたノイズを除去することで画像をクリーンアップするようにトレーニングされたニューラル ネットワークです。 このプロセスでは、元の画像が消去され、ランダムなピクセルだけが残るまで、画像を取得して一度に数ピクセルずつ変更します。多くの手順が必要です。 「これを何千回も繰り返すと、最終的に画像はテレビからアンテナ ケーブルを抜いたように見えます。ただの雪です」とドイツのミュンヘン大学でジェネレーティブ AI に取り組み、 Stable Diffusion を強化する拡散モデル。
次に、ニューラル ネットワークは、そのプロセスを逆にして、指定された画像のピクセル化されていないバージョンがどのように見えるかを予測するようにトレーニングされます。 要するに、拡散モデルにピクセルの混乱を与えると、少しきれいなものを生成しようとするということです。 クリーンアップされた画像を再び差し込むと、モデルはさらにクリーンなものを生成します。 これを十分な回数行うと、モデルはテレビの雪から高解像度の写真まであなたを連れて行くことができます.
AI アート ジェネレーターは、思い通りに動作することはありません。 多くの場合、せいぜい歪んだストック アートに似た恐ろしい結果を生み出します。 私の経験では、作品の見栄えを良くする唯一の方法は、見た目が美しく見えるスタイルで記述子を最後に追加することです。
〜エリック・カーター
テキストから画像へのモデルの秘訣は、このプロセスが、拡散モデルが生成する画像にプロンプトを一致させようとする言語モデルによって導かれることです。 これにより、言語モデルが適切に一致すると見なす画像に向けて拡散モデルがプッシュされます。
しかし、モデルはテキストと画像の間のリンクを無から引き離していません。 今日のほとんどのテキストから画像へのモデルは、LAION と呼ばれる大規模なデータセットでトレーニングされています。このデータセットには、インターネットからスクレイピングされたテキストと画像の数十億の組み合わせが含まれています。 これは、テキストから画像へのモデルから得られる画像が、偏見 (およびポルノ) によって歪められた、オンラインで表現されている世界の蒸留であることを意味します。
最後にもう 1 つ: 最も人気のある 2 つのモデル、DALL-E 2 と Stable Diffusion の間には小さいながらも決定的な違いがあります。 DALL-E 2 の拡散モデルは、フルサイズの画像で機能します。 一方、安定拡散は、オマーと彼の同僚によって発明された潜在拡散と呼ばれる手法を使用します。 これは、潜在空間として知られるニューラル ネットワーク内でエンコードされた画像の圧縮バージョンで機能します。ここでは、画像の本質的な特徴のみが保持されます。
これは、Stable Diffusion が機能するために必要な計算能力が少ないことを意味します。 OpenAI の強力なサーバーで実行される DALL-E 2 とは異なり、Stable Diffusion は (優れた) パーソナル コンピュータで実行できます。 創造性の爆発と新しいアプリの急速な開発の多くは、Stable Diffusion がオープン ソース (プログラマーが自由に変更、構築、収益化できる) であると同時に、人々が実行できるほど軽量であるという事実によるものです。自宅で。
創造性の再定義
一部の人にとっては、これらのモデルは汎用人工知能 (AGI) への一歩となるものです。これは、汎用または人間のような能力さえも備えた将来の AI を指す過度に宣伝されたバズワードです。 OpenAI は、AGI を達成するという目標を明確に示しています。 そのため、Altman は、DALL-E 2 が多くの同様のツールと競合するようになったことを気にしません。その一部は無料です。 「私たちは、画像ジェネレーターではなく、AGI を作成するためにここにいます」と彼は言います。 「より広範な製品ロードマップに適合します。 これは、AGI が行うことの小さな要素の 1 つです。」