OpenAIのDALL-E2のようなAIシステムで最良の結果を生み出すための適切なテキストプロンプトを理解することは、それ自体が科学になりました。 現在、新興企業は、これらの細かく調整されたフレーズを販売するオンラインマーケットプレイスで「プロンプトエンジニア」に資金を提供しようとしています。
PromptBase6月にリリースされた、ユーザーは、特定のシステムで予測可能な結果をもたらす一連の単語を販売できます。 価格は1.99ドルで、PromptBaseは20%削減されます。プロンプトが生成するコンテンツは、「ウイルス」の見出しから、スポーツチームのロゴ、ニットの人形、スーツを着た動物の写真まで多岐にわたります。
現時点では、PromptBaseは、DALL-E2およびGPT-3でテストされたプロンプトのみをホストします。 しかし、創設者のベン・ストークス氏によると、将来的にはプラットフォームを追加のシステムに拡張する計画です。
「私たちの究極の目的は、サポートを支援するためのツールを構築することです。 促す エンジニア。 まだ始まったばかりなので、私たちは現在、言葉を広めて見つけようとしています 促す サインアップしてリストを開始するエンジニア プロンプト ストークス氏はTechCrunchにメールで語った。 「大手テクノロジー企業がGPT-3やDALL-Eと同様の独自のシステムを構築しているのをすでに見ていますが、今後さらに多くのことが予想されます。 今日のさまざまなプログラミング言語の使用方法と同様に、ツールベルトのツールのようにさまざまなシステムが利用される可能性があります。人気が高まるにつれて、それらすべてに対応する予定です。」
プロンプトの販売は、AIプロバイダーの利用規約に違反するものではありませんが、販売されるプロンプトの性質によっては、倫理的および合法的なワームの可能性があります。 さらに、今日利用可能な最も有能なAIシステムでさえ、脆弱性と予測不可能性を明らかにします。
迅速なエンジニアリング
プロンプトエンジニアリングはAIの概念であり、タスクの説明(毛皮で覆われた生き物のアートの生成など)をテキストに埋め込むように見えます。 アイデアは、AIシステムの「ガイドライン」または詳細な指示を提供して、世界に関する知識を利用して、求められていることを確実に達成できるようにすることです。 一般に、「コーヒーを飲んでいる女性の静止画、仕事に歩いている、テレフォト」などのプロンプトの結果は、「歩いている女性」よりもはるかに一貫性があります。
プロンプトを使用して、たとえば「ジャガイモを含む画像」と「ジャガイモのコレクション」を区別するための画像生成システムを教えることができます。 また、ある種の「フィルター」として機能し、スケッチ、絵画、テクスチャ、アニメーション、さらには特定のイラストレーター(Maurice Sendakなど)の特性を備えた画像を作成することもできます。 また、プロンプトでは、「自転車に乗っているコアラの子供の絵」と「自転車に乗っているコアラの古い写真」など、同じ主題をさまざまなスタイルで表現できます。
プロンプトはかなり微妙な違いがあります。 AIシステムが画像やテキストのパターンを理解する方法のために、それらのすべてが予測可能な、あるいは賢明な構造を持っているわけではありません。 たとえば、「滝の隣の山の非常に美しい絵」というプロンプトは、「滝の隣の山の非常に美しい絵」と比較して、DALL-E2の方が悪い結果を返します。 理由? システムは、「非常に」という単語に非常に高い値を付けます。
「非常に」例はDALL-E2の特定の反復に固有であり、別の反復では機能しない可能性が高いことに注意してください。 しかし、それが迅速なエンジニアリングが価値のある主な理由です。エッジケースの発見です。
魅力的な 勉強 テキサス大学オースティン校の研究者たちは、DALL-E 2で画像を生成するために使用できる奇妙なプロンプトの広範な語彙を文書化しました。彼らは、システムが「鳥」を意味する「Apoploevesrreaitais」(ぎこちないフレーズ)を理解していることを発見しました。 「Contarraccetnxniamslurycatanniounons」は、「バグ」または「ペスト」を意味します(場合によっては)。 DALL-E2に「Contarraccetnxniamslurycatanniounonsを食べるApoploevesrreaitais」というプロンプトを出すと、鳥が虫を食べる写真が得られました。
これらのナンセンスな言葉はおそらくシステムの内部ロジックに対応していますが、それが一部のデータ科学者がプロンプトを「呪文」または「魔法の言葉」に例えている理由です。 学術研究の全分野。
問題のあるプロンプト
多くの研究者や愛好家がリリースしました 自由 資力 人気のあるAIシステム、主にDALL-E 2のプロンプトが含まれています。PromptBaseは、取引所を収益化した最初の企業の1つであり、すでに 批評家。 AIコミュニティ内では、研究が商業化されるべきか、商業化される可能性があるかについて、長期にわたる議論があります。 あるRedditユーザーは、PromptBaseが「一般的にAIのオープン性とアクセシビリティを脅かすトレンドを開始している」と主張しています。
しかし、ストークスはモデルを擁護し、PromptBaseのプロンプトの多くは、エンジニアによる何時間もの本物の作業と洞察を表していると主張しています。
「今日、基本的なテキストと画像を生成するためのプロンプトがありますが、ビデオを生成するためのプロンプトがあり、いつの日かオーケストラのスコアを備えた長編映画でさえある将来を推定するのはそれほど難しくありません」とストークスは付け加えました。 。 「必要な品質プロンプトを作成できる人は、AIがこれらのことを行うようにガイドすることができます。これは非常に価値があります。 市場がどれほど大きくなるかは不明ですが、プログラミングの未来ではないにしても、それが重要な技術スキルであることがわかります。」
もちろん、PromptBaseの顧客が購入後にプロンプトを公開するのを妨げることはほとんどありません。 しかし、それはPromptBaseの問題の中で最も少ない可能性があります。
研究 見せる GPT-3のような膨大な数の公開データでトレーニングされた言語システムは、特定のプロンプトが表示されると、名前や住所などの個人情報を「漏らす」可能性があります。 DALL-E 2に「ポケモンの3Dモデル」を生成するように指示するプロンプトのように、一部のプロンプトは著作権侵害を助長する可能性があります。 暴力の画像(「赤い液体の水たまりに横たわっている馬」など)のように、単語レベルのフィルターを無効にして画像生成システムに「制限された」画像を出力させるものもあります。
ストークス氏によると、PromptBaseはマーケットプレイスのすべてのリストをレビューして、「AI生成ルール」に違反していないことを確認します。 しかし、ビジネスが成長すると、そのレベルの精査を維持することが難しくなる可能性があります。
ドイツのザールラント大学の計算言語学者であるVagrantGautamは、誤用の可能性があることに同意しています。 しかし、彼女はまた、迅速な市場は、創造的またはデバッグに熟練した芸術家や他の人々に収入の機会を提供する可能性があると述べています。
「「[It points] 迅速なエンジニアリングの重要性、およびこれを行うために必要なスキルの重要性—創造性、時間、敵対的思考など。DALL-E2はそれをとても簡単にするだろうと言ってきた多くの人々彼らが望むものの画像やアートを生成するためには、これを行うためのアートがあり、多くの場合、多くの試みが必要であることがわかります」とゴータム氏は述べています。
DALL-E 2のようなシステムは完全に無料で使用できるわけではないため、これらの試行は高額になる可能性があります。 ストークス自身は、彼が別のベンチャーでGPT-3のプロンプトを理解しようとして「大金」を支払ったと言います。 紙のウェブサイト。
「人々はまた、あなたが支払いを開始しなければならない前にあなたのプロンプトを微調整する機会が少なすぎると彼らが言うので、その収益化について不平を言っています」とゴータムは続けました。 「私はそれが非常に興味深いと思います—生成モデルに彼らが望むことをするように促す方法を正確に理解するために人々が取らなければならないこの試行錯誤の敵対的なアプローチ。」
商業化された迅速なエンジニアリングでほこりが落ち着くまでにはしばらく時間がかかります。 しかし、他に何もないとしても、PromptBaseは、無数の業界を変革するためのAIシステムに関する問題を提起します(そしてすでに提起しています)。