その結果、模倣学習として知られる手法のブレークスルーが実現しました。この手法では、人間がタスクを実行するのを見て、ニューラル ネットワークがタスクを実行する方法をトレーニングします。 模倣学習は、ロボット アームの制御、自動車の運転、Web ページのナビゲートなどの AI のトレーニングに使用できます。
人々がさまざまなタスクを行っていることを示す膨大な量のビデオがオンラインにあります。 このリソースを活用することで、研究者は、GPT-3 が大規模な言語モデルに対して行ったことを模倣学習のために行うことを望んでいます。 「ここ数年、私たちはこの GPT-3 パラダイムの台頭を目の当たりにしてきました。そこでは、驚くべき機能がインターネットの膨大な範囲で訓練された大規模なモデルからもたらされることがわかりました」と、新しい Minecraft の背後にあるチームの 1 人である OpenAI の Bowen Baker は言います。ボット。 「その大部分は、人間がオンラインになったときに何をするかをモデル化しているためです。」
模倣学習への既存のアプローチの問題は、各ステップでビデオ デモンストレーションにラベルを付ける必要があることです。このアクションを実行するとこれが発生し、そのアクションを実行するとこれが発生します。 このように手動で注釈を付けるのは大変な作業なので、そのようなデータセットは小さくなる傾向があります。 ベイカーと彼の同僚は、オンラインで入手できる何百万ものビデオを新しいデータセットに変換する方法を見つけたいと考えていました。
Video Pre-Training (VPT) と呼ばれるチームのアプローチは、ビデオに自動的にラベルを付けるように別のニューラル ネットワークをトレーニングすることで、模倣学習のボトルネックを回避します。 彼らはまずクラウドワーカーを雇って Minecraft をプレイさせ、画面からのビデオと一緒にキーボードとマウスのクリックを記録しました。 これにより、研究者は 2000 時間の注釈付きの Minecraft プレイを行い、それを使用してモデルをトレーニングし、アクションを画面上の結果に一致させました。 たとえば、特定の状況でマウス ボタンをクリックすると、キャラクターは斧を振ります。
次のステップは、このモデルを使用して、インターネットから取得した 70,000 時間のラベルのないビデオのアクション ラベルを生成し、この大規模なデータセットで Minecraft ボットをトレーニングすることでした。
「ビデオは、多くの可能性を秘めたトレーニング リソースです」と、Sony AI America のエグゼクティブ ディレクターであり、以前は模倣学習に取り組んできた Peter Stone 氏は言います。