存在するすべてのボード ゲームで AI が人類の皮をなめすだけでは不十分であるかのように (今のところ比喩的に言えば)、Google AI はピンポンでも私たち全員を破壊するために働いています。 今のところ、彼らはそれが「協力的」であることを強調していますが、これらが改善される速度で、すぐにプロに取って代わるでしょう.
プロジェクト、 i-Sim2Real と呼ばれる、卓球だけではなく、ペースの速い、比較的予測不可能な人間の行動に対応できるロボットシステムを構築することを目的としています。 卓球とも呼ばれるピンポンには、(バスケットボールやクリケットをするのとは対照的に)非常に制約が厳しく、複雑さと単純さのバランスが取れているという利点があります。
「Sim2Real」とは、機械学習モデルが仮想環境またはシミュレーションで何をすべきかを教えられ、その知識を現実世界に適用する AI 作成プロセスを説明する方法です。 実用的なモデルにたどり着くまでに何年もの試行錯誤が必要になる可能性がある場合に必要です。シミュレーションで実行すると、何年にもわたるリアルタイム トレーニングを数分または数時間で行うことができます。
しかし、シムで何かを行うことが常に可能であるとは限りません。 たとえば、ロボットが人間と対話する必要がある場合はどうなるでしょうか。 これをシミュレートするのは簡単ではないため、最初に実際のデータが必要です。 ニワトリが先か卵が先かという問題に行き着きます。人間のデータがないのは、人間が対話するロボットを作成し、最初にそのデータを生成するためにデータが必要だからです。
グーグルの研究者 この落とし穴を免れた シンプルに始めて、フィードバック ループを作成します。
[i-Sim2Real] 人間の行動の単純なモデルをおおよその出発点として使用し、シミュレーションでのトレーニングと現実世界での展開を交互に繰り返します。 繰り返しのたびに、人間の行動モデルとポリシーの両方が洗練されます。
ロボットはまだ学習を始めたばかりなので、人間の行動の不適切な近似から始めることは問題ありません。 すべてのゲームでより多くの実際の人間のデータが収集され、精度が向上し、AI がより多くのことを学習できるようになります。
このアプローチは十分に成功し、チームの卓球ロボットは 340 強のラリーを行うことができました。 見てみな:
また、ボールをさまざまな領域に戻すこともできます。これは正確な数学的精度ではありませんが、戦略を実行するには十分です。
チームはまた、さまざまな位置から非常に特定の場所にボールを返すなど、より目標指向の行動のために別のアプローチを試みました. 繰り返しになりますが、これは究極の卓球マシンを作成することではありません (ただし、それはおそらく結果です) が、人々に同じアクションを何千回も繰り返させることなく、人間との相互作用を効率的にトレーニングする方法を見つけることです。
以下の概要ビデオで、Google チームが採用した手法について詳しく知ることができます。