ロボットに言語を理解するように教えることは、ロボットが現実世界の無限の複雑さに対処するのに役立つことが判明した.
ハイテク巨人は最新のものを移植しました 言葉を扱う人工知能技術「PaLM」からロボットへ 日常のロボットは、親会社のアルファベットの実験部門の 1 つです。 それは、結果として得られた技術を明らかにしました。 Palm-SayCan、 火曜日に。
このテクノロジーにより、Google の AI 言語モデルは現実世界に関する十分な知識をもたらし、ロボットが漠然とした人間のコマンドを解釈し、一連のアクションをつなぎ合わせて応答できるようにします。 これは、自動車の組み立てラインにフロントガラスを取り付けるなど、厳密に制御された状況でほとんどのロボットが従う正確にスクリプト化されたアクションとはまったく対照的です。 重要なことに、Google は、ロボットのスキルと環境で実際に可能な行動方針を設定する方法として、ロボットの能力も考慮に入れています。
このテクノロジーは、本格的な時期に向けて準備が整った研究プロジェクトです。 しかしGoogleは、私たちの実際の生活の予測不可能な混沌の中で役立つロボットを構築するために、より制御されたラボ環境ではなく、実際のオフィスのキッチンでそれをテストしています. テスラの二足歩行オプティマス ボット、ボストン ダイナミクスの作品、アマゾンのアストロなどのプロジェクトとともに、ロボットが最終的にどのように SF から抜け出すことができるかを示しています。
Google の AI 研究者が PaLM-SayCan ロボットに「飲み物をこぼしてしまいました。助けてくれませんか?」と言うと、 Google のオフィス ビルのキッチンを車輪で滑走し、デジタル カメラ ビジョンでカウンター上のスポンジを見つけ、電動アームでつかみ、研究者の元に運びます。 ロボットは、ペプシやコーラの缶を認識したり、引き出しを開けたり、ポテトチップスの袋を見つけたりすることもできます。 Palm の抽象化能力により、黄色、緑、青のボウルがそれぞれ砂漠、ジャングル、海を比喩的に表現できることさえ理解できます。
「言語モデルを改善すると、ロボットのパフォーマンスも向上します」と、技術の実証を支援した Google の上級研究科学者である Karol Hausman 氏は述べています。
AI は、コンピューター テクノロジーのしくみとその機能を大きく変えました。 人間の脳を大まかにモデル化し、ディープ ラーニングとも呼ばれる最新のニューラル ネットワーク テクノロジを使用して、AI システムは膨大な量の乱雑な現実世界のデータでトレーニングされます。 たとえば、何千枚もの猫の写真を見た後、AI システムは、通常 4 本の脚、とがった耳、ひげを持っていると言わなくても、1 枚の猫を認識できます。
Google は 6,144 個のプロセッサを搭載した巨大なマシンを使用してトレーニングを行いました PaLM、Pathways Language Model の略、Microsoft の GitHub サイトにある Web ドキュメント、書籍、ウィキペディアの記事、会話、およびプログラミング コードの膨大な多言語コレクションについて。 その結果、ジョークを説明し、文章を完成させ、質問に答え、独自の思考の連鎖に従って推論できる AI システムが完成しました。
PaLM-SayCan の作業は、この言語理解とロボット自身の能力を結び付けます。 ロボットがコマンドを受け取ると、言語モデルの提案と学習した約 100 のスキルのセットを組み合わせます。 ロボットは、言語とロボットのスキルの両方で最高得点のアクションを選択します。
このシステムは、トレーニングや環境によって制限されますが、産業用ロボットよりもはるかに柔軟です。 同僚の Claire Reilly が PaLM-SayCan ロボットに「ハンバーガーを作って」と頼むと、PaLM-SayCan ロボットはバンズ、パティ、レタス、ケチャップ ボトルの木製ブロック バージョンを正しい順序で積み重ねます。
ロボットのスキルと環境は、言語モデルのより広い可能性のための現実世界の土台を提供します、と Google は言いました。 「スキルは [language model’s] 『手と目』」と彼らは言いました。 PaLM-SayCan 研究論文.
その結果、より複雑な環境に対応できるロボットが完成しました。 「私たちの性能レベルは十分に高く、実験室の環境の外でこれを実行できます」と Hausman 氏は述べています。
約 30 台の車輪付きの日常ロボットが、カリフォルニア州マウンテン ビューにある Google のロボット オフィスをパトロールしています。 それぞれに、バランスと移動のための広い土台があり、人間の胸の高さまで伸びて多関節の「頭」を支える太い茎、さまざまなカメラと、ロボットがアクティブであることを示す緑色の光るリングを備えた顔、多関節の把持アーム、レーザーを使用してその環境の 3D スキャンを作成する回転ライダー センサー。 背面には大きな赤い停止ボタンがありますが、ロボットは衝突を避けるようにプログラムされています。
一部のロボットは駅に立ち、物を拾うなどのスキルを学びます。 それには時間がかかりますが、1 つのロボットがそれを学習すると、そのスキルを他のロボットに伝えることができます。
他のロボットはオフィスの周りを滑空し、それぞれの腕が後ろに組まれ、窓、消火器、大きな Android ロボット像にテープで貼られた QR コードに顔を向けています。 これらの歩行ロボットの仕事は、人間の周りで礼儀正しく振る舞う方法を学ぼうとすることだと、Google の著名な科学者でロボット工学研究所の所長である Vincent Vanhoucke 氏は述べています。
「AI はデジタルの世界で大きな成功を収めていますが、実際の物理的な世界で実際の人々が直面している問題を解決するには、まだ大きな影響を与える必要があります」と Vanhoucke 氏は述べています。 「今は AI が現実の世界に移行する絶好の機会だと考えています。」