OpenAI は本日、待望のテキスト生成 AI モデルである GPT-4 を出荷しました。これは興味深い作業です。
GPT-4 は、その前身である GPT-3 を重要な点で改善しています。たとえば、より事実に基づいた記述を提供し、開発者がそのスタイルと動作をより簡単に規定できるようにします。 また、画像を理解できるという意味でもマルチモーダルであり、キャプションを付けたり、写真の内容を詳細に説明したりすることもできます。
しかし、GPT-4 には重大な欠点があります。 GPT-3 と同様に、このモデルは事実を「幻覚」にし、基本的な推論エラーを起こします。 OpenAI の一例では 自分のブログ、GPT-4はエルビス・プレスリーを「俳優の息子」と表現しています。 (彼の両親はどちらも俳優ではありませんでした。)
GPT-4 の開発サイクルとその機能、およびその制限をよりよく理解するために、TechCrunch は OpenAI の共同創設者の 1 人で社長の Greg Brockman と火曜日のビデオ通話で話しました。
GPT-4 と GPT-3 を比較するように求められた Brockman 氏は、「違う」という 1 つの言葉で答えました。
「ただ違うだけです」と彼は TechCrunch に語った。 「まだ多くの問題や間違いがあります。 [the model] …しかし、微積分や法律などのスキルの飛躍を実際に見ることができ、特定の分野で非常に苦手だったものから、人間と比較して実際にはかなり上手になった.
テスト結果は彼の主張を裏付けています。 AP Calculus BC 試験では、GPT-4 は 5 点満点中 4 点を獲得し、GPT-3 は 1 点を獲得します (GPT-3 と GPT-4 の中間モデルである GPT-3.5 も 4 点を獲得します)。シミュレートされた司法試験、GPT-4 は、受験者の上位 10% 前後のスコアで合格します。 GPT-3.5 のスコアは下位 10% あたりで推移しました。
GPT-4 のより興味深い側面の 1 つは、前述のマルチモダリティです。 GPT-3 や GPT-3.5 はテキスト プロンプト (例: 「キリンについてのエッセイを書いてください」) のみを受け入れることができましたが、GPT-4 は画像とテキストの両方のプロンプトを取得して何らかのアクションを実行できます (例: キリンの画像「ここには何頭のキリンが表示されていますか?」というプロンプトでセレンゲティ)。
これは、GPT-4 がイメージでトレーニングされたためです。 と その前任者はテキストでのみトレーニングされていましたが、テキストデータ。 OpenAI によると、トレーニング データは「ライセンスを受け、作成され、公開されているさまざまなデータ ソースから取得されたものであり、公開されている個人情報が含まれている可能性があります。」 (訓練データは、以前に OpenAI を法的な問題に巻き込みました。)
GPT-4 の画像理解能力は非常に印象的です。 たとえば、「この画像のどこがおかしいの?」というプロンプトを表示します。 パネルごとに説明してください」と偽の VGA ケーブルが iPhone に差し込まれていることを示す 3 枚のパネルの画像を加えた GPT-4 は、各画像パネルの内訳を示し、ジョークを正しく説明します (「この画像のユーモアは、大型の時代遅れの VGA コネクタを小型の最新のスマートフォン充電ポートに差し込む」)。
現時点では、GPT-4 の画像解析機能にアクセスできるローンチ パートナーは 1 社だけです。Be My Eyes と呼ばれる視覚障害者向けの支援アプリです。 Brockman 氏は、OpenAI がリスクと利点を評価するため、より広範な展開はいつでも「ゆっくりと意図的に」行われると述べています。
「顔認識や、人々の画像をどのように処理するかなど、対処して取り組む必要がある政策上の問題があります」とブロックマン氏は言います。 「たとえば、危険ゾーンがどこにあるのか、赤い線がどこにあるのかを把握し、時間をかけてそれを明らかにする必要があります。」
OpenAI は、そのテキストから画像へのシステムである DALL-E 2 に関する同様の倫理的ジレンマに対処しました。 最初にこの機能を無効にした後、OpenAI は、顧客が AI を利用した画像生成システムを使用して、人の顔をアップロードして編集できるようにしました。 当時、OpenAI は、安全システムのアップグレードにより、ディープフェイクや性的、政治的、暴力的なコンテンツを作成しようとする試みによる「害の可能性を最小限に抑える」ことで、顔編集機能が可能になったと主張していました。
別の多年草は、精神的、金銭的、またはその他の害を及ぼす可能性のある意図しない方法で GPT-4 が使用されるのを防ぎます。 モデルのリリースから数時間後、イスラエルのサイバーセキュリティ スタートアップ Adversa AI は、 ブログ投稿 OpenAI のコンテンツ フィルターをバイパスし、GPT-4 にフィッシング メール、同性愛者の不快な説明、およびその他の非常に好ましくないテキストを生成させる方法を示します。
これは、言語モデル ドメインでは新しい現象ではありません。 Meta の BlenderBot と OpenAI の ChatGPT も、非常に不快なことを言うように促されており、内部の仕組みに関する機密の詳細を明らかにすることさえあります. しかし、このレポーターを含め、多くの人が、GPT-4 がモデレーションの面で大幅な改善をもたらす可能性があることを望んでいました。
GPT-4 の堅牢性について尋ねられたとき、ブロックマン氏は、モデルが 6 か月間の安全トレーニングを経ており、内部テストでは、OpenAI の使用ポリシーによって許可されていないコンテンツの要求に応答する可能性が 82% 低く、40% 高い可能性があると強調しました。 GPT-3.5 よりも「事実に基づく」応答を生成する。
「GPT-4 の機能を理解するために多くの時間を費やしました」と Brockman 氏は述べています。 「それを世界に広めることは、私たちが学ぶ方法です。 私たちは常に更新を行っており、多数の改善を含めて、モデルがどのような性格やモードであってもよりスケーラブルになるようにしています。」
率直に言って、初期の実際の結果はそれほど有望ではありません。 Adversa AI テストを超えて、GPT-4 を搭載した Microsoft のチャットボットである Bing Chat は、脱獄に対して非常に脆弱であることが示されています。 慎重に調整された入力を使用して、ユーザーはボットに愛を告白し、危害を加えると脅し、ホロコーストを擁護し、陰謀論を発明することができました.
Brockman は、ここで GPT-4 が不足していることを否定しませんでした。 しかし、彼は、「システム」メッセージと呼ばれる API レベルの機能を含む、モデルの新しい緩和操縦性ツールを強調しました。 システム メッセージは基本的に、GPT-4 の対話のトーンを設定し、境界を確立する指示です。 たとえば、システム メッセージは次のようになります。 あなた 一度もない 生徒に答えを与えますが、常に適切な質問をして、生徒が自分で考える方法を学べるようにします。」
システム メッセージがガードレールとして機能し、GPT-4 が方向転換するのを防ぐという考え方です。
「GPT-4 のトーン、スタイル、および内容を理解することは、私たちにとって大きな焦点でした」と Brockman 氏は述べています。 「エンジニアリングのやり方、人々にとって本当に役立つ予測可能な結果をもたらすような反復可能なプロセスを持つ方法について、もう少し理解し始めていると思います。」
Brockman と私の会話は、GPT-4 のコンテキスト ウィンドウにも触れました。これは、追加のテキストを生成する前にモデルが考慮することができるテキストを参照します。 OpenAI は、約 50 ページのコンテンツを「記憶」できる GPT-4 のバージョンをテストしています。これは、通常の GPT-4 が「メモリ」に保持できる量の 5 倍、GPT-3 の 8 倍です。
Brockman は、拡張されたコンテキスト ウィンドウが、特に企業において、これまで未開拓だった新しいアプリケーションにつながると考えています。 彼は、企業向けに構築された AI チャットボットを思い描いています。この AI チャットボットは、部門間の従業員を含むさまざまなソースからのコンテキストと知識を活用して、十分な情報に基づいた会話形式で質問に答えます。
それは 新しい概念ではない. しかし、ブロックマンは、GPT-4 の回答は、今日のチャットボットや検索エンジンからの回答よりもはるかに役立つと主張しています。
「以前は、モデルはあなたが誰で、何に興味を持っているかなどについて何の知識も持っていませんでした」とブロックマンは言いました。 「そういう歴史を持って [with the larger context window] 間違いなく、より有能になるでしょう…それは人々ができることをターボチャージするでしょう。」