グーグルは動揺している。 何年にもわたって偽りの神である仮想アシスタントをひたむきに崇拝してきた後、同社は競合他社が手を組んでピッチフォークを上げているため、AI戦略を急いでいます. 皮肉なことに、Google がピッチフォーク市場を追い詰めたと考えたために、すべてが起こっているのです。
2017 年に Google の研究者が記事「Attention is all you need」を公開し、トランスフォーマーの概念を紹介し、機械学習モデルの機能を大幅に改善しました。 技術的な側面を知る必要はありません (実際、私が教える立場ではありません)。 GPT の T であると言えば十分です。
なぜGoogleはこの素晴らしいものを無料で提供したのですか? 大手の民間調査会社は過去に研究を保留したことで批判されてきましたが、ここ数年の傾向は出版に向かっています。 これは名誉ある遊びであり、研究者自身への譲歩でもあります。 それにはおそらく傲慢な要素もあります。テクノロジーを発明したのに、Google がそれを最大限に活用できなかったのはどうしてでしょうか?
今日の ChatGPT やその他の大規模な言語モデルに見られる機能は、すぐには実現しませんでした。 新しいツールを理解して活用するには時間がかかります。すべての主要なテクノロジー企業は、AI の新しい時代が提供するものと、そのために必要なものを検討する必要がありました。
アシスタントを支援する
Google が他の企業と同じように AI の仕事に専念していたことに疑いの余地はありません。 次の数年間で、AI 計算ハードウェアの設計に大きな進歩を遂げ、開発者が機械学習モデルをテストおよび開発するための便利なプラットフォームを構築し、難解なモデルの微調整から音声合成などのより認識しやすいものまで、あらゆるものに関する大量の論文を発表しました。
しかし、問題がありました。 これは、Google の従業員や業界関係者から逸話的に聞いたことがありますが、会社のやり方には一種の封建的な側面があります。マップやアシスタントなどの既存の主要な製品の後援の下でプロジェクトを進めることは、信頼できる方法です。金と人員を得る。 そのため、世界で最も優れた AI 研究者の多くを集めたにもかかわらず、彼らの才能は企業戦略の轍に注ぎ込まれたようです。
それがどうなったか見てみましょうか? これは(確かに選択的な)小さなタイムラインです:
2018 年には、Google アシスタント フロー、写真 (モノクロ画像の色付けなど)、「ビジュアル ファースト バージョンのアシスタント」を備えたスマート ディスプレイ (見たことがありますか?)、マップのアシスタント、AI 支援などの段階的な改善を披露しました。 Google ニュース、および (彼らの名誉のために) MLKit.
2019 年には、ブランド変更されたより大きなスマート ディスプレイ、AR 検索結果、AR マップ、Google レンズの更新、ウェブ用の Duplex (Duplex を覚えていますか?)、ローカルでより多くのことを行う圧縮された Google アシスタント、Waze のアシスタント、運転モードのアシスタント、ライブキャプションとライブ リレー (音声認識) と、音声障害を持つ人々をよりよく理解するためのプロジェクト。
確かに、これらのいくつかは素晴らしいです! ただし、ほとんどは既存のものでしたが、AI によるブーストがありました。 振り返ってみると、多くの人が少しうんざりしているように感じます。 Google のような大企業がトレンドにとらわれて行動し、トレンドを推進する様子がよくわかります。
一方、その年の 2 月には、「OpenAI は非常に優れたテキスト ジェネレーターを構築しましたが、リリースするには危険すぎると考えられています」という見出しも付けました。 それがGPT-2でした。 3 じゃない、3.5 じゃない… 2.
2020 年、Google は AI を利用した Pinterest のクローンを作成し、12 月には AI 倫理の第一人者の 1 人である Timnit Gebru を、テクノロジーの限界と危険性を指摘する論文をめぐって解雇しました。
公平を期すために言うと、2020 年は多くの人にとって素晴らしい年ではありませんでした — OpenAI の注目すべき例外は、共同創設者のサム アルトマンがそうしなければならなかったことです。 個人的にGPT-3の誇大宣伝を鎮圧する 耐えられるレベルを超えていたからです。
2021 年には、Google 独自の大規模言語モデルである LaMDA がデビューしましたが、デモではあまり売れませんでした。 おそらく、アシスタントがスローするエラーを少なくする以外に、それが存在する理由でまだキャストしていたのでしょう。
OpenAI は、すぐに有名になるテキストから画像へのモデルの最初のバージョンである DALL-E を披露することで 1 年を始めました。 彼らは、次のようなシステムを通じて、LLM を示し始めていました。 クリップ、言語タスク以上のものを実行でき、むしろ汎用の解釈および生成エンジンとして機能しました。 (明確にするために、私は「人工知能」または AGI を意味するのではなく、そのプロセスが事前に設定された口頭コマンドのコレクション以上のものに対して機能したというだけです。)
2022 年には、アシスタントのさらなる調整、スマート ディスプレイの強化、マップの AR の強化、AI によって生成されたプロフィール写真の 1 億ドルの買収が行われます。 OpenAI は 4 月に DALL-E 2 を、12 月に ChatGPT をリリースしました。
2022 年初頭のある時点で、Google の幹部が目を覚まし、彼らが見たものに恐怖を感じたのではないかと思います。 をイメージしています シーン ロード・オブ・ザ・リングでは、デネソールがついにモルドールの集まった軍隊を見渡します。 しかし、これらの必死の VP は、理性を失って魔法使いに配置される代わりに、AI の世界的リーダーの周りでなぜ一部のスタートアップがサークルを運営しているのかを尋ねるメールを送信しました。 特に彼らが実際に手段を発明した後はそうする.
これの証拠は、DALL-E 2 の 1 か月後に Imagen が小走りに出たことです。ただし、Google が公表した他の興味深い AI 研究のほとんどすべてと同様に、API への接続はおろか、誰もテストすることはできませんでした。 その後、Meta が 9 月に Make-A-Video をリリースした後、Google は 1 週間後に Imagen Video で対応しました。 Riffusion は音楽の生成に波を起こし、1 か月後、MusicLM (これは使用できません) が登場しました。
しかし、Google の経営陣を不安から完全なフロップの汗に素早く移行させたのは、ChatGPT であったことは間違いありません。
この種の会話型 AI が、Google が 10 年間投資してきたアシスタント製品とはまったく異なることは、関係者全員に明らかでした。 実際 他のみんなの疑似 AI (事実上、API のコレクションの自然言語フロントエンド) を実行する ふりをした に。 いわゆる存亡の危機です。
幸運か先見の明か?
さて、買収の影響を受けない新興企業の誰かが検索エンジンの次の進化段階を引き起こし、業界のリーダーから一般の人々までの想像力をかき立てる非常に公的な方法でそれを行ったということは、十分に悪いことでした。技術回避。 ナイフの本当のひねりは、思いがけないところから来ました マイクロソフト.
Bing を Google 検索の「ライバル」と呼ぶのは、おそらく寛大すぎるでしょう。Google の 92% と比較してグローバル検索の約 3% で、Bing は裕福なあぶです。 Microsoft は、Bing の地位を向上させる能力についての幻想を放棄したようで、自分の家の外に助けを求めました。 彼らの OpenAI への投資が超自然的な先見の明だったのか、幸運な偶然だったのかにかかわらず、ある時点で、彼らが速い馬を支えていたことが明らかになりました。
おそらく煙の充満した部屋で、Satya Nadella と Sam Altman が共謀して、Google を新しい世界秩序から排除しようとしました。 裏話がどうであれ、マイクロソフトは革新的な新参者との忠誠を確保し、その技術を最も効果的な場所で活用する機会を確保しました。
ジェネレーティブ AI が生産性、コーディング、さらには管理にどのように役立つかについていくつかの興味深いアイデアが浮かぶのを見てきましたが、著作権の問題や、AI の反応が少し「創造的」すぎる傾向があるため、まだ証明されていません。 . しかし、適切なガードレールがあれば、単純な事実に関する質問から複雑な哲学的な質問まで、ほぼすべての質問に答えるための情報を統合するのに非常に優れていることは明らかでした。
検索は、大規模な言語モデルのコア コンピテンシーで前進するためのイノベーションの必要性を組み合わせたものであり、これは偶然または良識によって、パートナーとしての世界有数の作成者を並べたばかりでした。 最新の GPT モデル (GPT-4 と呼ぶ人もいますが、OpenAI はそのモニカを独自のファースト パーティ モデル用に予約しているのではないかと思います) を Bing と Edge に統合する動きは、一種の強制的なヘイル メリーであり、その最後で最高のプレイです。検索エンジンの世界。
Microsoft が OpenAI 搭載の Bing を発表する大きなイベントを予定していた前日、Google は明らかに動揺して、空虚なブログ投稿でスポイラー キャンペーンを試みました。 Bard は、明らかに Google の LaMDA ベースの ChatGPT の競合相手の名前であり、現在では一般的な控えめな形で発表されました。 機能を約束し、厳密な日付やアクセス計画はありません。
この発表の試みは非常に急いで行われたようで、その内容は 2 日後の Google の「検索と AI」イベントでほとんど言及されませんでした。ナレッジグラフの未来を宣伝します。 バードを説明するために使用された画像には、ジェームズ・ウェッブ宇宙望遠鏡が「太陽系外の惑星の最初の写真を撮った」という重要な誤りが含まれていました。 これは真実ではありません。この自慢のマシン インテリジェンスが間違っていたという事実と、Google の誰もそれに気付き、チェックするのに十分な注意を払っていなかったという事実は、投資家を驚かせたようです。
ChatGPT には確かに問題があり、Microsoft の強化された Bing が公開された直後、TechCrunch は、安全で適切と思われる AI を手に入れて、ヒトラーのエッセイを即興で作成し、それ自体の以前のバージョンが先月書いたワクチンの偽情報を逆流させることができました。 しかし、これらは、何十億ものプロンプトと会話が提供され、ユーザーの圧倒的な満足度を含む確立された記録の傷です.
Google が攻撃を急いで足を引っ張っていることは、Microsoft がすでに開始しているようなグローバルなロールアウトは言うまでもなく、限られた実験レベルであっても準備が整っていないことを目に見えて物語っています。
CEO のサンダー ピチャイ氏は投資家への呼びかけで、次のように述べています。 まだ始まったばかりですが、私たちが大胆に物事を発表し、フィードバックを得て、反復し、物事を改善していることがわかるでしょう。」 それは計画を持った男のように聞こえますか?
Google がゴールデン グースを殺したくないと思っていることは理解できます。 彼らは、1 つまたは 2 つのことを行う高度に専門化された AI タスク モデルを展開するエキスパートになりました。 しかし、大きな動きをすることになると、彼らの快適な位置は慣性に悩まされてきました.
グーグルの凋落ですか? もちろんそうではありません、それはデフォルトのままであり、当面の間、途方もなく収益性の高い、ややばかげた企業です. しかし、投資家の信頼は揺らいでいます。過去数年間、Google が有意義なイノベーションを実現できなかったのは、知恵や自信があったからではなく、寡黙さとプライドが原因だった可能性があることが判明したからです。 (FTC とジャスティスがその広告ビジネスにもう一度挑戦することも助けにはなりません。)
ただし、ワームのこのターンは最初の数度に過ぎず、問題のテクノロジーが誰もが信じているほど価値があることをまだ証明していない時期を推測しすぎてはなりません. そうでなければ、Google だけでなく、テクノロジー業界全体が影響を受けることになります。