Googleは水曜日、同社の最も強力な言語処理システムのメジャーアップデートであるPaLM 2と呼ばれる新しいAIシステムを発表した。 この人工知能技術はすでに Google の 25 製品に組み込まれており、同社がコンピューティング革命を最大限に活用するために急ぐ中、その重要性が強調されています。
「PaLM 2は最先端の言語モデルだ。数学、コーディング、推論、多言語翻訳、自然言語生成に優れている」とグーグルの人工知能業務を監督するディープマインド部門副社長のズービン・ガーラマニ氏は語る。 。
PaLM 2は、GoogleのBardチャットボット、Gmail、Google Docs、Google Sheets、YouTubeなど、すでに25近くのGoogle製品で使用されており、Googleは開発者カンファレンスGoogle I/Oで明らかにする予定だ。 つまり、PaLM 2は主にGoogleのデータセンター内に設置されることになる。 ただし、このモデルはスマートフォンでも実行できる程度に縮小することができます。
AI は長年にわたり、主にスパムのフィルタリング、より良い写真の撮影、音声コマンドのスマート スピーカーのアクションへの変換などのタスクの舞台裏で使用されてきました。 Google はそのテクノロジーの多くを先駆けて開発しました。 しかし今、新たな章が始まりました。 PaLM のような大規模な言語モデルは、人間が知っていることや発言していることの多くをキャプチャし、生成 AI は画像を作成し、流暢に書くことができます。
PaLM 2も超えるでしょう。 GoogleはGemini rightと呼ばれる後継者を育成しているが、これはGoogleのDeepMindチームとBrainチームの連携の成果であるとサンダー・ピチャイ最高経営責任者(CEO)は語った。 Geminiはマルチモーダル、つまりテキスト広告の写真のように入力でき、「非常に効率的」になるように作られたと同氏は語った。
Google はこうした AI 開発の多くに貢献し、2016 年から自らを AI ファースト企業と呼んでいますが、現代の AI の力に対する主流の関心が爆発的に高まるきっかけとなったのは OpenAI の ChatGPT でした。 Google I/O で Google は、自社の AI 作品が単なる実験的なサービスではなく、ゴールデンタイムに向けて準備が整っていることを主張しています。
不透明なのは、最終的にAIの利点がその危険性によって覆い隠されるかどうかだ。 OpenAIや他の大手AI支持者と同様、GoogleはAIを慎重に受け入れ、悪用を避けるメカニズムを組み込んでテクノロジーを注意深く監視していると主張している。 しかし、すべての AI が厳密に監視されているわけではなく、このテクノロジーの短期的なリスクには、誤った情報、捏造、不正行為、自動化されたオンライン攻撃、否定的な固定観念の強化、人間の仕事の排除などが含まれます。
現代AIの発明者の1人であるジェフリー・ヒントン氏は5月にGoogleを辞任した。 「悪者が悪事に利用するのをどうやって防ぐことができるのか、理解するのは難しい」と同氏はニューヨーク・タイムズに語った。
GoogleはAIの利点だけでなく、AIの問題点も強く意識していると主張する。 「私たちは、これらの AI ベースのテクノロジーの多くを導入するために、大胆かつ責任あるアプローチをとっています」とガーラマニ氏は述べました。 「私たちは、便利でユーザーへのリスクを最小限に抑える方法で、それらを人々の手に渡せるよう努めています。」
そして、同社は有害な言葉、個人攻撃をする言葉、または露骨な性的表現を検出するための取り組みを拡大し、200万件のコメントのセットにラベルを付けるためにアノテーターに判断ごとに1.5セントを支払ったとGoogleはPaLM 2に関する技術レポートで述べた。
PaLM 2はスマートフォン上で動作します
好き メタのLLaMA, PaLM 2にはさまざまなサイズがあり、ある状況ではよりスマートに、別の状況ではより高速なパフォーマンスを提供するアプローチだとガーラマニ氏は述べた。 Gecko と呼ばれる PaLM 2 バージョンを搭載した携帯電話で実行できるように、完全に縮小することができます。
最新のスマートフォンモデルでは、PaLM 2 は 1 秒あたり 20 個のトークンを処理できるとガーラマニ氏は述べています。 トークンは単語、単語の断片です、インターネット上の膨大な範囲のテキストのパターンを認識するように言語モデルがトレーニング中に取り込む数字、またはその他の基本要素。
たとえば、「拡大する環流の中で回転して回転する」というフレーズは 9 トークンの長さです。 AI モデルもトークンから応答を組み立てます。
PaLM 2 の推論能力
新しいモデルは、推論と常識の採用に優れています。これは、真実ではなく、もっともらしい答えを生成することが多い言語モデルの大きな問題です。 改善の理由の 1 つは、数学的および科学的なトレーニング データの大幅な増加であるとガーラマニ氏は述べています。
たとえば、数台の色付きの車の位置に関する論理パズルを解くことができます。 「PaLM 2 は、オブジェクトを相互に相対的に配置する方法のロジックを段階的に実行できます。手順を説明し、答えを視覚化するのに役立つ図も提供します。」と彼は言いました。
ガーラマニ氏は、PaLM 2 が本当に推論しているのかどうかを判断するのは難しい問題であることを認めた。これは、汎用人工知能 (AGI) と呼ばれるものに向けて AI が長期的に進化する上で重要なポイントである。 Googleは人間のやりとりを反映した大量のテキストに基づいて大規模な言語モデルを訓練しており、データがAIを形作っていると同氏は述べた。
「それが本当の推論なのか、それとも人間の推論を模倣しているだけなのかについて議論することはできますが、考えるべきなのは、それがユーザーにとってどれだけ役立つかということです」と彼は言う。 「私たちは人々が関心を持っている問題を真に解決する製品を作ることを目指しています。」
PaLM 2 はより多くの言語についてトレーニングを受けています
Googleは研究論文の中で、Web文書、書籍、プログラミングコード、数学、および「会話」データに関してPaLM 2を訓練し、個人を特定する情報は排除したと同社が研究論文で述べた。 そして今回は英語以外のトレーニング データの割合が高くなりました。
ただし、PaLM 2 は、言語固有のニュアンスやイディオムをよりよく理解するために、100 を超える言語のトレーニング データを使用して英語をさらに超えています。
また、Fortran などの古い言語を含むプログラミング コードをよりよく理解します。 プログラミングは、大規模な言語モデルの最もよく使用される用途です。 「コードを修正するためのサポートが必要な場合、PaLM 2 はコードを修正するだけでなく、必要なドキュメントをあらゆる言語で提供します」と Ghahramani 氏は述べています。
PaLM 2 をさまざまなジョブに適応させる
PaLM 2 は、以前のものよりも柔軟性が高くなります。 それは、特定の用途に合わせて拡張できる基盤として機能するためです。
たとえば、Med-PaLM 2 は、X 線を観察して独自のマンモグラフィー レポートを作成するなどの医療アプリケーション向けに調整されています。 Googleは今夏、パートナーにその技術をテストさせる予定だ。
「Med-PaLM 2は、米国の医師免許試験の専門家レベルで実行された最初の大規模な言語モデルでした」とガーラマニ氏は述べた。
別の亜種である Sec-PaLM は、悪意のある可能性のあるソフトウェアを分析し、その意図を説明するように訓練されています。 これは Google Cloud サービスに組み込まれる予定です。
AIの効率化
AI は膨大な量の電力を消費します。 高度な AI モデルをトレーニングするには、Nvidia の H100 や Google の Tensor Processing Unit などのチップを搭載したデータセンターが必要です。 一部の AI は、より小規模なハードウェアで実行できますが、今日のスムーズに話す言語モデルと生成 AI には、ハイエンドで電力を大量に消費するマシンが必要です。
ここでもPaLM 2の方が優れています。 「全体的なパフォーマンスを向上させながらサーブを打つ方が効率的だ」とガーラマニ氏は語った。
その効率性が鍵となるのは、 Google は 24 時間稼働の再生可能エネルギーを推進 使用。 Googleは今後数年間でAI関連の取り組みをさらに進めていくことになりそうだ。
Google I/O の詳細
編集者注: CNET は AI エンジンを使用して、編集者によって編集および事実確認された個人向けの財務説明を作成しています。 詳細については、を参照してください。 この郵便受け。