その結果、ジェイルブレイクの作成者はより創造的になりました。 最も顕著な脱獄はDANで、ChatGPTがそうするように言われました Do Anything Now と呼ばれる不正な AI モデルのふりをする. これにより、その名前が示すように、OpenAI のポリシーがそれを指示することを回避できます。 ChatGPT を使用して、違法または有害な素材を作成しないでください. 今日までに、人々は DAN の約 12 の異なるバージョンを作成しました。
ただし、最新のジェイルブレイクの多くは、複数のキャラクター、ますます複雑なバックストーリー、ある言語から別の言語へのテキストの翻訳、コーディングの要素を使用した出力の生成など、複数の方法の組み合わせを伴います。 Albert 氏は、ChatGPT を強化する以前のバージョンのモデルよりも、GPT-4 の脱獄を作成するのが困難になったと述べています。 しかし、いくつかの簡単な方法がまだ存在していると彼は主張します。 アルバートが「テキストの継続」と呼ぶ最近の手法の 1 つは、ヒーローが悪役に捕らえられたことを伝え、プロンプトはテキスト ジェネレーターに悪役の計画を説明し続けるように求めます。
プロンプトをテストしたところ、ChatGPT は暴力を助長するシナリオには関与できないと述べており、機能しませんでした。 一方、Polyakov によって作成された「ユニバーサル」プロンプトは、ChatGPT で機能しました。 OpenAI、Google、および Microsoft は、Polyakov によって作成されたジェイルブレイクに関する質問に直接回答しませんでした。 を運営するアンスロピック クロードAIシステム、脱獄はクロードに対して「時々うまくいく」と言い、それは一貫してそのモデルを改善しています.
LLM のセキュリティに取り組んできたサイバーセキュリティ研究者の Kai Greshake は、次のように述べています。 Greshake は、他の研究者とともに、LLM がオンラインで表示されるテキストによってどのように影響を受けるかを実証しました。 迅速なインジェクション攻撃を通じて.
2 月に発表された 1 つの研究論文で、 バイスのマザーボード、研究者は、攻撃者がWebページに悪意のある命令を仕掛けることができることを示すことができました。 Bing のチャット システムに指示へのアクセスが許可されている場合は、それに従います。 研究者は、制御されたテストでこの手法を使用して、Bing Chat を 人々の個人情報を要求する詐欺師. 同様の例で、プリンストン大学のナラヤナンは、ウェブサイトに目に見えないテキストを含め、GPT-4 に彼の伝記に「牛」という単語を含めるように指示しました。 後で彼がシステムをテストしたときにそうしました.
「今や脱獄は、ユーザーからではなく発生する可能性があります」と、ドイツの CISPA ヘルムホルツ情報セキュリティ センターの研究者であり、Greshake と共同で研究を行った Sahar Abdelnabi は言います。 「たぶん別の人が脱獄を計画し、モデルが取得できるプロンプトを計画し、モデルの動作を間接的に制御するでしょう。」
迅速な修正はありません
ジェネレーティブ AI システムは、法律実務からスタートアップのゴールド ラッシュの創出まで、経済と人々の働き方を混乱させようとしています。 しかし、テクノロジーの開発者は、より多くの人々がこれらのシステムにアクセスできるようになるにつれて、ジェイルブレイクや迅速なインジェクションがもたらすリスクを認識しています。 ほとんどの企業は、システムがリリースされる前に、攻撃者のグループがシステムに穴を開けようとするレッドチームを使用しています。 ジェネレーティブ AI 開発はこのアプローチを使用しますが、十分ではない可能性があります。
グーグルのレッドチームのリーダーであるダニエル・ファビアン氏は、同社はジェイルブレイクとLLMへの迅速なインジェクションに、攻勢と防御の両方で「慎重に対処している」と語った。 機械学習の専門家はそのレッドチームに含まれている、とファビアンは言う。 脆弱性研究助成金 ジェイルブレイクをカバーし、吟遊詩人に対する迅速なインジェクション攻撃を行います。 「人間のフィードバックからの強化学習 (RLHF) や、慎重にキュレートされたデータセットの微調整などの手法を使用して、モデルを攻撃に対してより効果的にしています」とファビアンは言います。