OpenAI は、テキストから画像への AI モデル DALL-E に新しい「outpointing」機能を追加しました。これにより、システムは新しいビジュアルを生成できます。 任意の画像の境界を拡張する.
上の例では、DALL-E が人間の指示を利用して、ヨハネス フェルメールの肖像画「真珠の耳飾りの少女」のフレームの外側にあるものを「想像」する方法を見ることができます。 肖像画から得られる限られた情報からでも、システムはオリジナルの影とハイライトを模倣してフェルメールのスタイルに一致させることができることに注意してください。
下のタイムラプスでは、担当アーティストであるオーガスト・カンプが、一度に小さなセクションで画像を拡大しなければならなかった方法も見ることができます。彼女が望む結果を得るために、しばしば DALL-E の世代をやり直しました. このビデオでは見られませんが、強調する価値があるのは、システムがこれらの拡張機能を単独で生成しているわけではないという事実です。 すべてのテキストから画像への AI と同様に、このモデルでは、人間が新しいビジュアルを記述する必要があります。
機能としてのアウトペインティングは、オリジナル コンテンツを拡張するために使用できますが、もちろん、多くの DALL-E ユーザーが、有名な画像の枠外にあるものを見る機能で遊んでいます。 (私の絶対的なお気に入りの例については、一番下までスクロールしてください…)
より広い観点から見ると、アウトペインティングは実際にはテキストから画像への AI システムの基本機能を拡張するものではありませんが、これらのシステムの成長市場で OpenAI がどのように位置付けられる可能性があるかを示しています。
多くのテキストから画像への AI モデルは、塗りつぶしと同じ重要な機能を実行できますが、この更新前の DALL-E 自体と同様に、かなりの手作業が必要でした。 アウトペインティングを可能な限り簡単にすることで、DALL-E は、Midjourney や Stable Diffusion などの小型ながら同等のシステムとの競争が激化する中、差別化を図ることができます。
DALL-E 自体は現在、ベータ プログラムを通じて利用可能であり、現在 100 万人以上のユーザーがアクセスできます。 各ベータ ユーザーは、最初の月に 50 の無料イメージ生成を取得し、その後毎月 15 の追加の使用を取得します。 その後、追加の 115 世代のイメージを 15 ドルで購入できます。
ただし、それまでの間、アウトペインティングを使用して、「クエーカー オーツの男が巨乳のバーテンダーだったらどうなるか」など、人生最大の謎のいくつかに答えることができます。 もう不思議に思う必要はありません: