1980 年代から 90 年代: リカレント ニューラル ネットワーク
ChatGPT は、同じく OpenAI によって開発された大規模な言語モデルである GPT-3 のバージョンです。 言語モデルは、大量のテキストでトレーニングされたニューラル ネットワークの一種です。 (ニューラル ネットワークは、動物の脳内のニューロンが互いにシグナルを伝達する方法に着想を得たソフトウェアです。) テキストは、さまざまな長さの一連の文字と単語で構成されているため、言語モデルには、その種のデータを理解できるタイプのニューラル ネットワークが必要です。 . 1980 年代に発明されたリカレント ニューラル ネットワークは、単語のシーケンスを処理できますが、トレーニングが遅く、シーケンス内の前の単語を忘れてしまう可能性があります。
1997 年、コンピューター科学者のゼップ ホホライターとユルゲン シュミットフーバーは、次の発明によってこの問題を解決しました。 LTSM (長短期記憶) ネットワーク、入力シーケンスの過去のデータをより長く保持できるようにする特別なコンポーネントを備えた再帰型ニューラル ネットワーク。 LTSM は数百語の長さのテキストの文字列を処理できましたが、言語スキルには限界がありました。
2017: トランスフォーマー
今日の世代の大規模言語モデルの背後にあるブレークスルーは、Google の研究者チームが発明したときにもたらされました。 変圧器は、各単語またはフレーズがシーケンス内のどこに現れるかを追跡できる一種のニューラル ネットワークです。 単語の意味は、多くの場合、前後にある他の単語の意味に依存します。 このコンテキスト情報を追跡することにより、トランスフォーマーはより長いテキスト文字列を処理し、単語の意味をより正確に捉えることができます。 たとえば、「ホットドッグ」は、「ホットドッグには十分な水を与える必要があります」と「ホットドッグはマスタードで食べる必要があります」という文では、まったく異なる意味を持ちます。
2018–2019: GPT および GPT-2
OpenAI の最初の 2 つの大規模な言語モデルは、わずか数か月間隔で作成されました。 同社は、マルチスキルの汎用 AI を開発したいと考えており、大規模な言語モデルがその目標に向けた重要なステップであると考えています。 GPT (Generative Pre-trained Transformer の略) は旗を立て、当時の自然言語処理の最先端のベンチマークを打ち破りました。
GPT は、事前に注釈が付けられていないデータ (この場合は非常に多くのテキスト) で機械学習モデルをトレーニングする方法である教師なし学習とトランスフォーマーを組み合わせました。 これにより、ソフトウェアは、何を見ているかを知らされることなく、データのパターンを自分で把握できます。 機械学習におけるこれまでの成功の多くは、教師あり学習と注釈付きデータに依存していましたが、手作業でデータにラベルを付けるのは時間がかかるため、トレーニングに使用できるデータセットのサイズが制限されます。
しかし、より大きな話題を呼んだのはGPT-2でした。 OpenAI は、人々が GPT-2 を使用して「欺瞞的、偏見のある、または虐待的な言葉を生成する」ことを非常に懸念しているため、完全なモデルをリリースしないと主張しました。 時代の移り変わり。
2020: GPT-3
GPT-2 は印象的でしたが、OpenAI のフォローアップである GPT-3 には驚きました。 人間のようなテキストを生成するその能力は、大きな飛躍でした。 GPT-3 は、質問に答えたり、ドキュメントを要約したり、さまざまなスタイルのストーリーを生成したり、英語、フランス語、スペイン語、日本語の間で翻訳したりできます。 その模倣はすごいです。
最も注目すべきポイントの 1 つは、GPT-3 の利点は、新しい技術を発明するのではなく、既存の技術を大幅に拡張したことです。 GPT-2 の 15 億と比較して、GPT-3 には 1750 億のパラメーター (トレーニング中に調整されるネットワーク内の値) があります。 また、より多くのデータでトレーニングされました。