OpenAI は バグ報奨金、ChatGPTを含むAIサービスの脆弱性を見つけて開示することを一般のメンバーに奨励しています。 報奨金は、「重大度の低い調査結果」に対する 200 ドルから「例外的な調査結果」に対する 20,000 ドルまでの範囲で、レポートはクラウドソーシング サイバーセキュリティ プラットフォームを介して提出できます。 バグクラウド.
特に、報奨金には、ChatGPT のジェイルブレイクや悪意のあるコードやテキストの生成に対する報酬は含まれていません。 「モデルのプロンプトと応答の内容に関連する問題は、厳密には範囲外であり、報われません」と OpenAI の バグクラウドのページ.
ChatGPT のジェイルブレイクには通常、システムに精巧なシナリオを入力して、独自の安全フィルターをバイパスできるようにする必要があります。 これには、チャットボットが「悪の双子」としてロールプレイすることを奨励し、ヘイトスピーチや武器の作り方の指示など、他の方法では禁止されている応答をユーザーに引き出させることが含まれる場合があります。
OpenAI は、「このようなモデルの安全性の問題は、直接修正できる個々の個別のバグではないため、バグ報奨金プログラムにうまく適合しません」と述べています。 同社は、「これらの問題に対処するには、多くの場合、実質的な調査とより広範なアプローチが必要である」と述べており、そのような問題に関するレポートは、会社の モデル フィードバック ページ.
このようなジェイルブレイクは、AI システムの広範な脆弱性を示していますが、従来のセキュリティの失敗と比較して、OpenAI にとって直接的な問題ではない可能性があります。 たとえば、先月、rez0 として知られるハッカーが 80 の「秘密のプラグイン」 ChatGPT API の場合 — 会社のチャットボット用のまだリリースされていない、または実験的なアドオン。 (Rez0 は、脆弱性が Twitter で公開されてから 1 日以内にパッチが適用されたことを指摘しました。)
1 人のユーザーとして 答えた ツイート スレッドへ: 「彼らが有償の #BugBounty プログラムさえ持っていれば、群衆が将来これらのエッジ ケースを発見するのを助けることができると確信しています :)」