人工知能は 多くの約束がありましたが、何十億もの人々にうまく利用されるのを妨げている何かがありました。それは、人間と機械が自然言語でお互いを理解するための苛立たしい闘争です。
過去 20 年間で最も重要な AI ブレークスルーの 1 つであるトランスフォーマー アーキテクチャを搭載した大規模な言語モデルの登場により、これは現在変化しています。
トランスフォーマーは、シーケンシャル データをモデル化し、シリーズの次に何が来るかを予測するように設計されたニューラル ネットワークです。 彼らの成功の核心は、トランスフォーマーがすべてを処理しようとするのではなく、入力の最も顕著な特徴に「注意を向ける」ことを可能にする「注意」のアイデアです。
これらの新しいモデルは、言語翻訳、要約、情報検索、そして最も重要なテキスト生成など、自然言語を使用するアプリケーションに大幅な改善をもたらしました。 以前は、それぞれにオーダーメイドのアーキテクチャが必要でした。 現在、変圧器は全面的に最先端の結果をもたらしています。
Google はトランスフォーマー アーキテクチャのパイオニアですが、OpenAI は 2020 年に GPT-3 (Generative Pre-Trained Transformer 3) をローンチして、その力を大規模に実証した最初の企業になりました。 当時、これはこれまでに作成された最大の言語モデルでした。
人間のようなテキストを生成する GPT-3 の能力は、興奮の波を引き起こしました。 それは始まりにすぎませんでした。 大規模な言語モデルは現在、実に驚くべき速さで改善されています。
「パラメーター数」は、モデルの機能の大まかな代用として一般に受け入れられています。 これまでのところ、パラメーターの数が増えるにつれて、さまざまなタスクでモデルのパフォーマンスが向上することがわかりました。 過去 5 年間、モデルは毎年ほぼ 1 桁ずつ成長してきたため、結果が目覚ましいものであることは驚くことではありません。 ただし、これらの非常に大きなモデルは、本番環境で提供するにはコストがかかります。
本当に注目に値するのは、この 1 年間で小型化が進み、劇的に効率が向上したことです。 現在、実行コストがはるかに低い小型モデルから印象的なパフォーマンスが見られます。 多くはオープンソース化されており、これらの新しい AI モデルを実験して展開する際の障壁をさらに減らしています。 もちろん、これは、日常的に使用するアプリやサービスに、より広く統合されることを意味します。
非常に高品質のテキスト、画像、オーディオ、およびビデオ コンテンツを生成できるようになるでしょう。 この新しい AI の波は、コンピューターがユーザーのためにできることを再定義し、高度な機能の奔流を既存の製品や根本的に新しい製品に解き放ちます。
私が最も興味を持っている分野は言語です。 コンピューティングの歴史を通じて、人間は、人間ではなくテクノロジ用に設計されたインターフェイスを使用して、自分の考えを入念に入力する必要がありました。 このブレークスルーの波により、2023 年には機械との対話が始まります。 私たちの 言語 — 瞬時かつ包括的に。 最終的には、すべてのデバイスと真に流暢で会話的なやり取りができるようになります。 これは、人間と機械の相互作用を根本的に再定義することを約束します。
過去数十年にわたり、私たちはプログラミングの方法を人々に教えることに注力してきました。つまり、コンピューターの言語を教えることです。 それは今後も重要です。 しかし 2023 年には、そのスクリプトが逆転し始め、コンピューターが私たちの言語を話すようになります。 これにより、創造性、学習、遊びのためのツールへのアクセスが大幅に広がります。
AI がついに有用性の時代に突入したため、新しい AI ファースト製品の機会は計り知れません。 まもなく、プログラミング能力に関係なく、好奇心と想像力だけが主な制限となる世界に私たちは住むことになります。