最近のジェネレーティブ AI は、その忠実度の点で非常に印象的です。 バレンシアガ ポープ 提案します。 最新のシステムは、都市のスカイラインからカフェまでの風景を思い起こさせ、少なくとも一見しただけでは、驚くほどリアルに見える画像を作成できます。
しかし、テキストから画像への AI モデルの長年にわたる弱点の 1 つは、皮肉なことにテキストです。 最高のモデルでさえ、テキスト、カリグラフィー、フォントはおろか、読みやすいロゴを含む画像を生成するのに苦労しています。
しかし、それは変わるかもしれません。
先週、スタビリティ AI が支援する研究グループである DeepFloyd は、 発表した ディープフロイド IF、テキストを画像に「スマートに」統合できるテキストから画像へのモデル。 10 億を超える画像とテキストのデータ セットでトレーニングされた DeepFloyd IF は、実行に少なくとも 16 GB の RAM を搭載した GPU を必要とし、「「Deep Floyd」と書かれたシャツを着たテディ ベアのようなプロンプトから画像を作成できます。 ‘” — オプションで、さまざまなスタイルで。
DeepFloyd IF は、商用利用を禁止する方法でライセンス供与されたオープン ソースで利用できます。 この制限は、ジェネレーティブ AI アート モデルの現在の法的地位が希薄であることを動機としている可能性があります。 いくつかの商用モデル ベンダーは、ベンダーが許可なく Web からその作品をスクレイピングすることにより、報酬を得ることなく自分の作品から利益を得ていると主張するアーティストから攻撃を受けています。
しかし、ジェネレーティブ アートのプラットフォームである Nightcafe は認められました。 早期アクセス ディープフロイドIFへ。
Nightcafe の CEO である Angus Russell 氏は TechCrunch に、DeepFloyd IF が他のテキストから画像へのモデルと異なる点と、それがジェネレーティブ AI の重要な前進となる理由について語りました。
Russell 氏によると、DeepFloyd IF のデザインは、公開されることのなかった Google の Imagen モデルに大きく影響を受けています。 OpenAI の DALL-E 2 や Stable Diffusion などのモデルとは対照的に、DeepFloyd IF は、モジュラー アーキテクチャに積み重ねられた複数の異なるプロセスを使用して画像を生成します。
典型的な拡散モデルでは、モデルは、ほぼ完全にノイズで構成された開始イメージからノイズを徐々に差し引く方法を学習し、ターゲット プロンプトに段階的に近づけます。 DeepFloyd IF は拡散を 1 回ではなく数回実行し、64x64px の画像を生成してから、その画像を 256x256px にアップスケーリングし、最後に 1024x1024px にアップスケーリングします。
なぜ複数の拡散ステップが必要なのですか? DeepFloyd IF はピクセルを直接操作する、と Russell 氏は説明します。 拡散モデルは、大部分が潜在拡散モデルであり、本質的には、より多くのピクセルを表す低次元空間で機能しますが、精度は低くなります。
DeepFloyd IF と、Stable Diffusion や DALL-E 2 などのモデルとのその他の重要な違いは、前者が大規模な言語モデルを使用して、プロンプトをベクトル (基本的なデータ構造) として理解し、表現することです。 D上 DeepFloyd IF のアーキテクチャに埋め込まれた大規模な言語モデルのサイズに対して、このモデルは、複雑なプロンプトや、プロンプトに記述された空間関係 (「ピンクの球体の上の赤い立方体」など) の理解に特に優れています。
「また、読みやすく正しいスペルのテキストを画像内に生成するのも非常に得意で、複数の言語のプロンプトを理解することさえできます」とラッセル氏は付け加えました。 「これらの機能の中で、画像内に読みやすいテキストを生成する機能は、おそらく DeepFloyd IF が他のアルゴリズムから際立っている最大のブレークスルーです。」
DeepFloyd IF は画像内のテキストを非常にうまく生成できるため、Russell は、ロゴ デザイン、Web デザイン、ポスター、ビルボード、さらにはミームなど、新しいジェネレーティブ アートの可能性の波を解き放つことを期待しています。 このモデルは、手のようなものを生成する能力もはるかに優れているはずであり、他の言語のプロンプトを理解できるため、それらの言語でもテキストを作成できる可能性があると彼は言います。
「NightCafe ユーザーが DeepFloyd IF に興奮しているのは、主に画像内のテキストを生成することによって可能性が解き放たれるためです」とラッセル氏は述べています。 「Stable Diffusion XL は、テキストの生成を前進させた最初のオープン ソース アルゴリズムであり、1 つまたは 2 つの単語を正確に生成できます。 いくつかの しかし、テキストが重要なユースケースにはまだ十分ではありません。」
これは、DeepFloyd IF がテキストから画像へのモデルの聖杯であることを示唆しているわけではありません。 Russell は、基本モデル dまったく同じ画像を生成しません 審美的に楽しい いくつかの拡散モデルとして、彼は微調整がそれを改善することを期待しています.
しかし、私にとってより大きな問題は、DeepFloyd IF が生成型 AI の兄弟と同じ欠陥をどの程度抱えているかということです。
の成長する体 リサーチ 画像生成 AI において、人種、民族、性別、およびその他の形式のステレオタイプが明らかになりました。 含む 安定した拡散。 ちょうど今月、AI スタートアップの Hugging Face とライプツィヒ大学の研究者が、 道具 Stable Diffusion や OpenAI の DALL-E 2 などのモデルは、特に権威のある立場にある人々を描写するように求められた場合に、白人で男性に見える人々の画像を生成する傾向があることを示しています。
DeepFloyd チームは、彼らの功績として、DeepFloyd IF に付随する細字に偏りの可能性があることに注目しています。
他の言語を使用するコミュニティや文化のテキストや画像は、十分に説明されていない可能性があります。 多くの場合、白人と西洋の文化がデフォルトとして設定されているため、これはモデルの全体的な出力に影響します。
これとは別に、DeepFloyd IF は、他のオープンソースの生成モデルと同様に、ポルノ有名人のディープフェイクや暴力の生々しい描写を生成するなど、害を及ぼすために使用される可能性があります。 DeepFloyd IF の公式 Web ページで、DeepFloyd チームは、「カスタム フィルター」を使用して、透かし入りの「NSFW」および「その他の不適切なコンテンツ」をトレーニング データから削除したと述べています。
しかし、どのコンテンツが削除されたのか、またどれだけ削除された可能性があるのかは不明です。 最終的には時間が教えてくれます。