先週後半、 Google の研究者 Fei Xia は、明るいオープン プランのキッチンの中央に座り、大きなフロアランプに似た片腕の車輪付きロボットに接続されたラップトップにコマンドを入力しました。 「お腹が空いた」と彼は書いた。 ロボットはすぐに近くのカウンターに近づき、大きなプラスチック製のペンチでマルチグレイン チップスの袋を恐る恐る持ち上げ、Xia のところに移動してスナックを差し出しました。
カリフォルニア州マウンテン ビューにある Google のロボティクス ラボで開催されたこのデモンストレーションで最も印象的だったのは、Xia のコマンドに応じて何をすべきかをロボットが理解するようにプログラムした人間のコーダーは誰もいなかったことです。 その制御ソフトウェアは、Web から収集した何百万ページものテキストを使用して、話し言葉を一連の物理的な動作に変換する方法を学習していました。
これは、Alexa や Siri などの仮想アシスタントで必要になる場合があるように、コマンドを発行するために事前に承認された特定の文言を使用する必要がないことを意味します。 ロボットに「私はカラカラです」と伝えると、何か飲み物を見つけようとします。 「おっと、飲み物をこぼしてしまいました」と言うと、スポンジを持って戻ってくるはずです。
「現実世界の多様性に対処するために、ロボットは適応し、経験から学ぶことができる必要があります」と、Google の上級研究科学者である Karol Hausman 氏はデモで述べ、ロボットがスポンジを持ってくることも含まれていました。こぼれをきれいにするためにオーバー。 人間と対話するために、機械は単語をさまざまな方法で組み合わせてさまざまな意味を生成する方法を学習する必要があります。 「言語の微妙なところや複雑さをすべて理解するのは、ロボット次第です」と Hausman 氏は言います。
Google のデモは、複雑な環境で人間と対話できるロボットを作成するという長年の目標に向けた一歩でした。 過去数年間、研究者は、書籍や Web から取得した大量のテキストを大規模な機械学習モデルにフィードすると、OpenAI のテキスト ジェネレーター GPT-3 などの優れた言語スキルを持つプログラムを生成できることを発見しました。 オンラインのさまざまな形式の文章を消化することで、ソフトウェアはテキストに関する質問を要約したり回答したり、特定の主題に関する首尾一貫した記事を生成したり、説得力のある会話をしたりする能力を身につけることができます。
Google やその他のビッグ テック企業は、これらの大規模な言語モデルを検索や広告に広く利用しています。 多くの企業がクラウド API を介してこのテクノロジを提供しており、コードの生成や広告コピーの作成などのタスクに AI 言語機能を適用する新しいサービスが生まれています。 Google のエンジニアである Blake Lemoine は、この技術を利用したチャットボットが ラムダ、感覚があるかもしれません。 会社に雇用されている Google 副社長 で書いた の エコノミスト ボットとのチャットは、「知的な人と話している」ように感じました。
これらの進歩にもかかわらず、AI プログラムは依然として混乱したり、意味不明な言葉を吐き出したりする傾向があります。 Web テキストでトレーニングされた言語モデルも、真実の把握に欠けており、トレーニング データに見られる偏見や憎悪に満ちた言葉を再現することがよくあります。
Hausman がデモンストレーションしたロボットは、Google がこれまでに発表した中で最も強力な言語モデルである、 手のひら. 質問に答えるときに特定の結論に至る方法を自然言語で説明するなど、多くのトリックが可能です。 同じアプローチを使用して、ロボットが特定のタスクを実行するために実行する一連のステップを生成します。