OpenAI が、非常に強力な AI テキストから画像へのシステムである DALL-E 2 によって作成された画像を顧客が商用利用できるようになってから、わずか数週間しか経っていません。 しかし、API は言うまでもなく、現在の技術的な制限とボリューム ライセンスの欠如にもかかわらず、一部のパイオニアは、さまざまなビジネス ユース ケースでシステムをすでにテストしていると述べています。 .
推奨アルゴリズムを使用してアパレルをパーソナライズするオンライン サービス、Stitch Fix は、 実験した DALL-2 を使用して、色、生地、スタイルなどの特定の特性に基づいて製品を視覚化します。 たとえば、Stitch Fix の顧客がパイロット中に「ハイライズ、レッド、ストレッチ、スキニー ジーンズ」を求めた場合、DALL-E 2 がタップされてそのアイテムの画像が生成され、スタイリストはそれを使用して類似のジーンズと一致させることができました。スティッチフィックスの在庫にある製品。
「DALL-E 2は、製品の最も有益な特徴を視覚的な方法で明らかにするのに役立ち、最終的にスタイリストが書面によるフィードバックでクライアントが要求したものに一致する完璧なアイテムを見つけるのに役立ちます」と広報担当者は電子メールでTechCrunchに語った.
もちろん、DALL-E 2 には癖があります — そのうちのいくつかは、初期の企業ユーザーを一時停止させています。 e コマースのスタートアップである Klaviyo のデータ サイエンス担当バイス プレジデントである Eric Silberstein 氏は、次のように説明しています。 ブログ投稿 潜在的なマーケティングツールとしてのシステムに対する彼の複雑な印象.
彼は、DALL-E 2 によって生成された人間モデルの顔の表情は、不適切である傾向があり、筋肉と関節が不均衡になる傾向があり、システムが指示を常に完全に理解するとは限らないことを指摘しています。 Silberstein が DALL-E 2 に、灰色の背景に対して木製のテーブルの上にろうそくのイメージを作成するように依頼したとき、DALL-E 2 は時々、ろうそくのふたを消して机に溶け込ませたり、ろうそくの周りに不自然な縁を追加したりしました。
「人間が写っている写真や製品をモデル化した人間の写真については、そのままでは使用できませんでした」と Silberstein 氏は書いています。 それでも彼は、編集の開始点を示したり、グラフィック アーティストにアイデアを伝えたりするようなタスクに DALL-E 2 を使用することを検討すると述べました。 「人間のいないストック写真や特定のブランディング ガイドラインのないイラストの場合、DALL·E 2 は、専門家ではない私の目には、今の「古い方法」を合理的に置き換えることができます」と Silberstein 氏は続けました。
Cosmopolitan の編集者も同様の結論に達しました。 結論 デジタル アーティストの Karen X. Cheng とチームを組み、DALL-E 2 を使用して雑誌の表紙を作成したときです。 アートジェネレーターとしてのDALL-E 2の限界を示しています。
しかし、AI の奇妙さは、バグではなく機能として機能することがあります。 ドローケチャップ用 運動Heinz は、「ケチャップ」、「ケチャップ アート」、「ファジー ケチャップ」、「宇宙のケチャップ」、「ケチャップ ルネッサンス」などの自然言語用語を使用して、DALL-E 2 に一連のケチャップ ボトルの画像を生成させました。 同社はファンに独自のプロンプトを送信するよう招待し、Heinz はそれをキュレーションしてソーシャル チャネル全体で共有しました。
AI 画像がニュースやソーシャル フィードを席巻しているため、「Draw Ketchup」キャンペーンを拡大する自然な機会を見出しました。 ハインツはケチャップという言葉と同義語であるという洞察に根ざしており、この理論を AI 分野でテストするためです」と、ハインツのシニア ブランド マネージャーであるジャクリーン チャオ (Jacqueline Chao) 氏はプレス リリースで述べています。
明らかに、DALL-E 2 主導のキャンペーンは、AI が主題の場合に機能します。 しかし、何人かの DALL-E 2 ビジネス ユーザーは、このシステムを利用して、AI の制約の明確な兆候を示さない資産を生成したと述べています。
ソフトウェア エンジニアのジェイコブ マーティンは、DALL-E 2 を使用してロゴを作成しました。 OctoSQL、彼が開発しているオープン ソース プロジェクトです。 約 30 ドル — おおよそ Fiverrのロゴデザインサービス — マーティンは、肉眼では人間のイラストに見えるタコの漫画のイメージに行き着きました。
「最終結果は理想的ではありませんが、私はそれにとても満足しています」とマーティンは書いています. ブログ投稿. 「DALL-E 2に関する限り、現時点では、ほとんどの部分と目的について、まだ「最初の反復」段階にあると思います。主な例外は鉛筆スケッチです。 それらは驚くほど優れています… DALL-E 2 が 10 倍から 100 倍安くなり、より速くなったときに、本当のブレイクスルーが起こると思います。」
DALL-E 2 ユーザーの 1 人 — 開発スタートアップ企業 Deephaven の設計責任者である Don McKenzie — は、このアイデアをさらに一歩進めました。 彼は、このシステムを適用して会社のブログにサムネイルを生成することをテストしました。 考え 画像付きの投稿は、画像なしの投稿よりもはるかに多くのエンゲージメントを獲得します。
マッケンジー氏はブログ記事で、「ほとんどがエンジニアで構成された小規模なチームであるため、ブログ投稿ごとにカスタム アートワークを依頼する時間も予算もありません。 「私たちのこれまでのアプローチは、10 分かけてストック フォト サイトから関連性はあるものの最終的には不適切な画像をスクロールし、ひどいものではないものをダウンロードし、それをフロント マターに叩きつけて公開するというものでした。」
週末に 45 ドルのクレジットを使った後、McKenzie は、100 ほどのブログ投稿を DALL-E 2 で生成された画像に置き換えることができたと言います。 最良の結果を得るにはプロンプトを細かく調整する必要がありましたが、McKenzie 氏は努力する価値があったと述べています。
「平均して、私が満足できるものを得るには、ブログ投稿ごとに数分と約 4 ~ 5 回のプロンプトが必要だったと思います」と彼は書いています。 「1 か月にストック画像に費やすお金と時間は増え、結果はさらに悪化しました。」
プロンプトのブレーンストーミングに費やす時間がない企業のために、DALL-E 2 の資産生成機能を商業化しようとしているスタートアップが既に存在します。 Unstock.aiは、DALL-E 2 の上に構築されており、「高品質の画像とイラストをオンデマンドで提供する」ことを約束していますが、現時点では無料です。 顧客はプロンプト (例: 「ボウルに入った 3 匹の金魚の上面図」) を入力し、好みのスタイル (ベクター アート、フォトリアリスティック、鉛筆画) を選択して画像を作成します。この画像はトリミングやサイズ変更が可能です。
Unstock.ai は基本的にプロンプト エンジニアリングを自動化します。これは、タスクの説明をテキストに埋め込む AI の概念です。 アイデアは、AI システムに詳細な指示を提供して、求められていることを確実に達成できるようにすることです。 一般に、「コーヒーを飲んでいる女性、歩いて通勤している様子、望遠写真」などのプロンプトの結果は、「歩いている女性」よりもはるかに一貫性があります。
これは、今後のアプリケーションの前兆となる可能性があります。 OpenAI にコメントを求めたところ、DALL-E 2 のビジネス ユーザーに関する数字の共有は拒否されました。 しかし、逸話的には、需要はそこにあるようです。 DALL-E 2 の API の欠如に対する非公式の回避策が Web 全体に出現し、システムをアプリ、サービス、Web サイト、さらにはシステムに組み込みたいと熱望している開発者によってまとめられました。 ビデオゲーム.