GPT-4 の新機能 — 写真の処理からエーシングテストまで

火曜日、OpenAI は次世代の AI 言語モデルである GPT-4 を発表しました。同社は、GPT-4 とその前身との違いはカジュアルな会話では「微妙」であると警告していますが、システムにはまだ多くの新しい機能があります。画像を処理することができ、OpenAI によると、クリエイティブな作業や問題解決においては一般的に優れているという。

これらの主張を評価するのは難しい。一般に、AI モデルは非常に複雑であり、GPT-4 のようなシステムは広大で多機能であり、隠された未知の機能を備えています。事実確認も課題です。たとえば、GPT-4 が新しい化合物を作成したと自信を持って伝える場合、実際の化学者に尋ねるまで、それが本当かどうかはわかりません。 (ただし、これは、特定の大げさな主張が Twitter で広まるのを止めることはありません。) OpenAI がその中で明確に述べているようにテクニカルレポート、GPT-4の最大の制限は、それが情報を「幻覚」（でっち上げ）にし、しばしば「自信を持ってその予測が間違っている」ことです.

これらの警告はさておき、GPT-4 は間違いなく技術的にエキサイティングであり、すでに大きなメインストリーム製品に統合されています。そのため、新機能の感触をつかむために、ニュースアウトレット、Twitter、および OpenAI 自体からその偉業と能力の例をいくつか収集し、独自のテストを実行しました。私たちが知っていることは次のとおりです。

テキストと一緒に画像を処理できます

前述のように、これが GPT-4 とその前身との最大の実質的な違いです。このシステムはマルチモーダルで、画像とテキストの両方を解析できますが、GPT-3.5 はテキストしか処理できませんでした。これは、GPT-4 が画像の内容を分析し、その情報を書面による質問に関連付けることができることを意味します。 (ただし、DALL-E、Midjourney、または Stable Diffusion のような画像を生成することはできません。)

これは実際にはどういう意味ですか？ ニューヨークタイムズ 1 つのデモをハイライト GPT-4 が冷蔵庫の中を見せられ、その食材でどんな料理が作れるか尋ねられました。案の定、画像に基づいて、GPT-4 はおいしいものと甘いものの両方の例をいくつか思いつきます。ただし、これらの提案の 1 つであるラップには、そこにはないように見える材料、トルティーヤが必要であることに注意してください。

画像には蜂蜜、ナッツ、またはトルティーヤがないことに注意してください。

画像：ニューヨークタイムズ

この機能には、他にも多くのアプリケーションがあります。デモで発表後にOpenAIで配信、同社はGPT-4が手描きのスケッチに基づいてWebサイトのコードを作成する方法を示しました（ビデオは下に埋め込まれています）。また、OpenAI はスタートアップの Be My Eyes とも協力しています。Be My Eyes は、物体認識や人間のボランティアを使用して視覚障害を持つ人々を支援しています。 GPT-4 で会社のアプリを改善する.

この種の機能は完全にユニークというわけではありません (多くのアプリが基本的なオブジェクト認識を提供します。 Apple の拡大鏡アプリ）、しかしOpenAIは、GPT-4が「人間のボランティアと同じレベルのコンテキストと理解を生成する」ことができると主張しています. この機能はまだ公開されていませんが、「数週間でユーザーの手に渡ります」と同社は述べています。

他の会社も GPT-4 の画像認識能力を試しているようです。ダイアグラムの創設者であるジョーダン・シンガーは、つぶやいた同社は、AIデザインアシスタントツールにこの技術を追加して、デザインにコメントできるチャットボットやデザインの生成を支援できるツールなどを追加することに取り組んでいる.

また、下の画像が示すように、GPT-4 は面白い画像も説明できます。

言葉遊びが得意です

OpenAI によると、GPT-4 は創造性や高度な推論を必要とするタスクで優れているとのことです。評価するのは難しい主張ですが、私たちが見て実施したいくつかのテストに基づいて、それは正しいようです (ただし、その前任者との違いは今のところ驚くべきものではありません)。

中に会社のデモ OpenAI の共同創設者である Greg Brockman は、GPT-4 に、「g」で始まる単語のみを使用してブログ投稿のセクションを要約するように依頼しました。 (彼は後で同じことをするように依頼しましたが、「a」と「q」を使用します。) OpenAI のビデオでは、GPT-4 は、文字「g」で始まらない単語を 1 つだけ含む、合理的に理解できる文で応答し、Brockman が自分自身を修正するように要求した後、完全にそれを取得します。一方、GPT-3 はプロンプトに従おうとさえしなかったようです。

私たちは、GPT-3.5 と 4 のモデルを比較して、「n」で始まる単語のみを使用して要約するテキストを ChatGPT に与えることで、これを自分で試しました。 (この場合、 ヴァージ NFT の説明者。) 最初の試行では、GPT-4 はテキストの要約に関しては優れた仕事をしましたが、プロンプトに固執することに関してはより悪い仕事をしました。

1/2

GPT-4 は、文字「n」のみで始まる単語を使用していくつかの段落を要約しようとしています。

スクリーンショット: Mitchell Clark / The Verge

しかし、2 つのモデルに間違いを修正するよう依頼したところ、GPT-3.5 は基本的にあきらめましたが、GPT-4 はほぼ完璧な結果をもたらしました。まだ「オン」が含まれていましたが、公平を期すために、修正を依頼したときに見逃していました.

また、記事を押韻詩に変えるように両方のモデルに依頼しました。 NFT に関する詩を読むのはつらいですが、ここでは GPT-4 の方が確実に優れています。その詩はかなり複雑に感じられましたが、GPT-3.5 は誰かが悪いフリースタイルをしているように見えました。

1/2

NFT に関する GPT-3.5 の詩 — なぜ私は自分自身にこれを行ったのですか?

スクリーンショット: Mitchell Clark / The Verge

より多くのテキストを処理できます

AI 言語モデルは、短期記憶に保持できるテキストの量 (つまり、ユーザーの質問とシステムの回答の両方に含まれるテキスト) によって常に制限されてきました。しかし、OpenAI はこれらの機能を GPT-4 向けに大幅に拡張しました。このシステムは、科学論文と小説全体を一度に処理できるようになり、より複雑な質問に答え、特定のクエリでより多くの詳細を関連付けることができるようになりました。

GPT-4 には文字数や単語数がないことに注意してください。 それ自体ですが、「トークン」と呼ばれる単位で入力と出力を測定します。このトークン化プロセスは非常に複雑ですが、知っておく必要があるのは、トークンは次のようになるということです。だいたい四文字 75 ワードは通常、約 100 トークンを占めます。

GPT-3.5-turbo が特定のクエリで使用できるトークンの最大数は約 4,000 で、これは 3,000 語を少し超える量に相当します。比較すると、GPT-4 は約 32,000 トークンを処理でき、OpenAI によると、約 25,000 ワードになります。同社は、より長いコンテキストに対して「まだ最適化中」であると述べていますが、より高い制限は、モデルが以前ほど簡単ではなかったユースケースを解き放つ必要があることを意味します.

それはテストをエースすることができます

GPT-4 に関する OpenAI のテクニカルレポートの際立った指標の 1 つは、BAR、LSAT、GRE、多数の AP モジュール、および — 未知ではあるが非常に面白い理由 — を含む一連の標準化されたテストでのパフォーマンスでした。、マスターソムリエ裁判所が提供する認定ソムリエコース、および上級ソムリエコース（理論 それだけ）。

これらのテストのいくつかについて、GPT-4 と GPT-3 の結果の比較を以下に示します。 GPT-4 は現在、さまざまな AP モジュールにかなり一貫して合格していますが、より創造性を必要とするもの (つまり、英語や英文学の試験) には依然として苦労していることに注意してください。

GPT-3.5 とのさまざまな標準化されたテストでの GPT-4 のパフォーマンスの比較。

画像：OpenAI

これは、特に過去の AI システムが達成したであろうものと比較して印象的な結果ですが、その成果を理解するには、少し前後関係が必要です。エンジニア兼ライターのジョシュア・レヴィだと思います Twitterで最高の投稿をする、これらの結果を見るときに多くの人が屈する論理的誤りを説明しています。

コンピュータ科学者の Melanie Mitchell は、この問題についてより詳しく説明しました。さまざまな試験での ChatGPT のパフォーマンスについて説明しているブログ投稿. Mitchell が指摘するように、これらのテストに合格する AI システムの能力は、特定の種類の構造化された知識を保持および再現する能力に依存しています。これらのシステムがこのベースラインから一般化できるとは限りません。言い換えれば、AI は試験に向けた指導の究極の例かもしれません。

すでに主流の製品で使用されています

GPT-4 の発表の一環として、OpenAI はモデルを使用している組織に関するいくつかのストーリーを共有しました。これらには、Kahn Academy によって開発された AI チューター機能が含まれます。これは、学生のコースワークを支援し、教師にレッスンのアイデアを提供することを目的としています。また、同様のインタラクティブな学習体験を約束する Duolingo との統合も含まれます。

Duolingo のオファリングはデュオリンゴマックス 2 つの新機能を追加します。演習に対するあなたの答えが正しいか間違っているかについて「簡単な説明」をし、他の例や説明を求めさせます. もう 1 つは「ロールプレイ」モードで、フランス語でコーヒーを注文したり、スペイン語でハイキングの計画を立てたりするなど、さまざまなシナリオで言語の使用を練習できます。 (現在、この機能で利用できる言語はこれらの 2 つだけです。) 同社によると、GPT-4 により、「2 つの会話がまったく同じになることはありません」とのことです。

他の企業は、関連するドメインで GPT-4 を使用しています。 Intercom は本日、そのアップグレードを発表しました。モデルを使用したカスタマーサポートボット、システムがビジネスのサポートドキュメントに接続して質問に答えると約束し、支払い処理業者のストライプは. 内部でシステムを使用する技術文書に基づいて従業員の質問に答える。

それはずっと新しいBingに力を与えてきました

OpenAI の発表後、Microsoft は、Bing のチャットエクスペリエンスを強化するのに役立つモデルが、実際には GPT-4 であることを確認しました。

それは地球を揺るがすような啓示ではありません。マイクロソフトは、「次世代の OpenAI 大規模言語モデル」を使用しているとすでに述べていましたが、それを GPT-4 と命名することをためらっていました。 Bing も GPT-4 について考えます。

それはまだ間違いを犯します

明らかに、Bing のチャットエクスペリエンスは完璧ではありません。ボットは人々にガス灯を当てようとし、ばかげた間違いを犯し、同僚のショーン・ホリスターに毛むくじゃらのポルノを見たいかどうか尋ねました。これの一部は、Microsoft が GPT-4 を実装した方法によるものですが、これらの経験から、これらの言語モデルに基づいて構築されたチャットボットがどのように間違いを犯す可能性があるかについてのアイデアが得られます。

実際、GPT-4が最初のテストでいくつかのフラブを作るのをすでに見てきました. の ニューヨークタイムズたとえば、記事では、システムは一般的なスペイン語の単語の発音方法を説明するように求められますが、ほとんどすべての単語が間違っています。（しかし、「グリンゴ」の発音方法を尋ねたところ、その説明はうまくいったようでした。）

これは大きな落とし穴ではありませんが、GPT-4 やその他の言語モデルの作成と展開に関係するすべての人がすでに知っていることを思い出してください。 多くの. そして、家庭教師、営業担当者、コーダーのいずれであっても、展開には、それと同じくらい目立つ警告を付ける必要があります。

OpenAI の CEO である Sam Altman は、1 月に当時未発表だった GPT-4 の機能について尋ねられたとき、このことについて次のように述べています。誇大宣伝はまさに… 私たちは実際の AGI を持っていません。

AGI はまだありませんが、以前よりも幅広い機能を備えたシステムです。次に、最も重要な部分を待ちます。それは、それがどのように、どこで使用されるかを正確に確認することです。