ついに、OpenAI の画像生成 AI システムである DALL-E 2 が API として利用できるようになりました。つまり、開発者はこのシステムをアプリ、Web サイト、およびサービスに組み込むことができます。 今日のブログ投稿で、OpenAI は、開発者が DALL-E 2 のパワーを利用し始めることができると発表しました。これは、DALL-E 2 の一部として OpenAI API アカウントを作成すると、現在 300 万人以上が 1 日に 400 万以上の画像を生成するために使用されています。パブリックベータ。
DALL-E 2 API の価格は解像度によって異なります。 1024×1024 の画像の場合、費用は画像あたり $0.02 です。 512×512 画像は 1 画像あたり $0.018 です。 256×256 画像は画像あたり $0.016 です。 OpenAI のエンタープライズ チームと協力している企業は、ボリューム ディスカウントを利用できます。
DALL-E 2 ベータ版と同様に、この API を使用すると、ユーザーはテキスト プロンプトから新しい画像を生成したり (「花畑を飛び回るふわふわのウサギ」など)、既存の画像を編集したりできます。 OpenAI の緊密なパートナーである Microsoft は、Bing と Microsoft Edge で Image Creator ツールを使用してそれを活用しています。これにより、Web の結果が探しているものを返さない場合にユーザーが画像を作成できるようになります。 ファッション デザイン アプリの CALA は、DALL-E 2 API を使用して、顧客がテキストの説明や画像からデザインのアイデアを絞り込むことができるツールを開発しています。また、写真スタートアップの Mixtiles は、ユーザー向けのアートワーク作成フローにこの API を導入しています。
API のリリースによってポリシーの面で大きな変更はありません。これは、DALL-E 2 のようなジェネレーティブ AI システムが、それらがもたらす倫理的および法的問題を十分に考慮せずにリリースされることを恐れている人々を失望させる可能性があります。 以前と同様に、ユーザーは OpenAI の利用規約に拘束されます。これは、DALL-E 2 を使用して明らかに暴力的、性的、または憎悪に満ちたコンテンツを生成することを禁止しています。 OpenAI はまた、ユーザーが同意なしに人の写真や権利を持たない画像をアップロードすることをブロックし続けており、これを実施するために自動化された監視システムと人間の監視システムを組み合わせて採用しています。
わずかな調整の 1 つは、API で生成された画像に透かしを含める必要がないことです。 OpenAI は、DALL-E 2 ベータ版で透かしを導入し、どの画像がシステムに由来するかを示す方法として使用しましたが、API の開始に伴い、オプションにすることを選択しました。
DALL-E 2の開発を監督するOpenAIの製品マネージャーであるLuke Miller氏は、電子メールでTechCrunchに語った。
OpenAI は、DALL-E 2 でプロンプト レベルおよびイメージ レベルのフィルターも採用していますが、一部の顧客から不満が寄せられているフィルターは、 熱心すぎる と 不正確. また、同社は、DALL-E 2 が生成する画像の種類を多様化することに研究努力の一部を集中させており、テキストから画像への AI システムが犠牲になることが知られているバイアスに対抗することを目指しています (たとえば、主に白い画像を生成するなど)。男性は、「CEO の例」などのテキストで促された場合)。
しかし、これらの措置がすべての批判を和らげたわけではありません。 8 月、ゲッティ イメージズ 禁止された Newgrounds、PurplePort、FurAffinity などのサイトによる同様の決定に従って、DALL-E 2 やその他のツールを使用して生成されたイラストのアップロードと販売。 Getty Images の CEO である Craig Peters 氏は The Verge に、DALL-E 2 などのシステムのトレーニング データ セットには、ウェブからスクレイピングされた著作権のある画像が含まれているため、「対処されていない権利の問題」に対する懸念から禁止が促されたと語った。
妥協点を見つけようとして、Getty Images のライバルである Shutterstock は最近、DALL-E 2 を使用してコンテンツを生成することを開始すると同時に、テキストから画像への AI システムをトレーニングするための作品を販売する際にクリエイターに払い戻しを行う「貢献者基金」を立ち上げると発表しました。 . また、著作権で保護された作品がプラットフォームに入る可能性を最小限に抑えるために、サードパーティによってアップロードされた AI アートを禁止しています。
技術者の Mat Dryhurst と Holly Herndon は、 ソース+ 人々が自分の作品や肖像を AI トレーニング目的で使用することを禁止できるようにするため。 しかし、それは任意です。 OpenAI は、参加するかどうか、あるいは実際に、著作権者が自分の作品をトレーニングやコンテンツ生成から除外できるようにするセルフサービス ツールを導入するかどうかを明らかにしていません。
インタビューで、Miller は新しい緩和策に関する詳細をほとんど明らかにしなかったが、OpenAI は、顧客が好ましくないと思う可能性のある偏った、有毒な、または不快なコンテンツをシステムが生成するのを防ぐための技術を改善していることを除けば. 彼は、オープン API ベータ版は「反復的な」プロセスであり、OpenAI が DALL-E 2 を強化するインフラストラクチャを拡張するにつれて、今後数か月にわたって「ユーザーとアーティスト」との作業が必要になると説明しました。
確かに、DALL-E 2 ベータ版が何らかの兆候である場合、API プログラムは時間とともに進化します。 初期の頃、OpenAI は DALL-E 2 を使用して人の顔を編集する機能を無効にしていましたが、安全システムを改善した後、この機能を有効にしました。
「私たちは、アップロードする画像と送信するプロンプトの両方を通じて、それをコンテンツポリシーと一致させ、プロンプトレベルでフィルタリングするためのさまざまな緩和策を焼き付けることで、その側面で多くの作業を行いました。画像レベルが Google のコンテンツ ポリシーに準拠していることを確認してください。 したがって、たとえば、誰かがヘイトシンボルやゴアを含む画像をアップロードした場合、非常に非常に暴力的なコンテンツのように、それは拒否されます」と Miller 氏は述べています。 「私たちは常にシステムを改善する方法を考えています。」
しかし、OpenAI は Stable Diffusion をめぐる論争を避けようとしているように見えますが、DALL-E 2 に相当するオープンソースであり、ポルノ、ゴア、有名人のディープフェイクの作成に使用されていますが、展開する方法と場所を正確に選択するのは API ユーザーに任されています。その技術。 Microsoft のように、フィードバックを集めるために DALL-E 2 を搭載した製品をゆっくりと展開し、慎重なアプローチをとることは間違いありません。 他の人は、テクノロジーと 倫理的ジレンマ それと一緒に来ます。
1 つ確かなことがあるとすれば、それはジェネレーティブ AI に対する需要が滞っているということです。 API が正式に利用可能になる前から、開発者は DALL-E 2 をアプリ、サービス、Web サイト、さらにはさらには Web サイトに統合するための回避策を公開していました。 ビデオゲーム. OpenAI の手ごわいマーケティング力に後押しされたパブリック ベータ版のリリースにより、合成画像は真にメインストリームに入る態勢が整っています。