OpenAI は ChatGPT にバグ報奨金を提供しますが、チャットボットのジェイルブレイクに対する報酬はありません

OpenAI はバグ報奨金、ChatGPTを含むAIサービスの脆弱性を見つけて開示することを一般のメンバーに奨励しています。報奨金は、「重大度の低い調査結果」に対する 200 ドルから「例外的な調査結果」に対する 20,000 ドルまでの範囲で、レポートはクラウドソーシングサイバーセキュリティプラットフォームを介して提出できます。バグクラウド.

特に、報奨金には、ChatGPT のジェイルブレイクや悪意のあるコードやテキストの生成に対する報酬は含まれていません。「モデルのプロンプトと応答の内容に関連する問題は、厳密には範囲外であり、報われません」と OpenAI のバグクラウドのページ.

ChatGPT のジェイルブレイクには通常、システムに精巧なシナリオを入力して、独自の安全フィルターをバイパスできるようにする必要があります。これには、チャットボットが「悪の双子」としてロールプレイすることを奨励し、ヘイトスピーチや武器の作り方の指示など、他の方法では禁止されている応答をユーザーに引き出させることが含まれる場合があります。

OpenAI は、「このようなモデルの安全性の問題は、直接修正できる個々の個別のバグではないため、バグ報奨金プログラムにうまく適合しません」と述べています。同社は、「これらの問題に対処するには、多くの場合、実質的な調査とより広範なアプローチが必要である」と述べており、そのような問題に関するレポートは、会社のモデルフィードバックページ.

このようなジェイルブレイクは、AI システムの広範な脆弱性を示していますが、従来のセキュリティの失敗と比較して、OpenAI にとって直接的な問題ではない可能性があります。たとえば、先月、rez0 として知られるハッカーが 80 の「秘密のプラグイン」 ChatGPT API の場合 — 会社のチャットボット用のまだリリースされていない、または実験的なアドオン。 (Rez0 は、脆弱性が Twitter で公開されてから 1 日以内にパッチが適用されたことを指摘しました。)

1 人のユーザーとして答えたツイートスレッドへ: 「彼らが有償の #BugBounty プログラムさえ持っていれば、群衆が将来これらのエッジケースを発見するのを助けることができると確信しています :)」

コメントする コメントをキャンセル

コメントするコメントをキャンセル