AI 研究者たちは、ゲームのオープンワールドで機能を探索し拡張できる Minecraft ボットを構築しました。しかし、他のボットとは異なり、このボットは基本的に試行錯誤を経て独自のコードを作成しました。 たくさん GPT-4 クエリの数。
Voyager と呼ばれるこの実験システムは、シミュレートされた環境または現実の環境で自由かつ目的を持って移動および行動できる AI である「身体化エージェント」の一例です。 パーソナル アシスタント タイプの AI やチャットボットは、実際に何かを行う必要はなく、ましてや、複雑な世界をナビゲートしてそのようなことを行う必要はありません。 しかし、それはまさに家庭用ロボットが将来行うことが期待されていることであり、それをどのように実現するかについては多くの研究が行われています。
Minecraft は、そのようなことをテストするのに適した場所です。なぜなら、Minecraft は現実世界を非常に (非常に) 近似的に表現しており、シンプルで単純なルールと物理学を備えているだけでなく、複雑でオープンなため、達成したり試したりすることがたくさんあるからです。 専用のシミュレータも優れていますが、独自の制限があります。
峰道場 は、Minecraft を中心に構築されたシミュレーション フレームワークです。なぜなら、そこにランダムな AI をポンと入れて、これらすべてのブロックやブタが何をしているかを理解することを期待することはできないからです。 その作成者 (Voyager チームと多くの重複があります) は、ゲームに関する YouTube ビデオ、トランスクリプト、wiki 記事、r/minecraft からの大量の Reddit 投稿、その他のデータをまとめて、ユーザーが AI モデルを作成または微調整できるようにしました。それらの上に。 また、ラマの周りにフェンスを構築したり、ダイヤモンドを見つけて採掘したりするなどの作業をどの程度うまく行うかを見ることで、モデルを多かれ少なかれ客観的に評価することもできます。
ボイジャー はこれらのタスクに優れており、これに近い唯一のモデルである AutoGPT よりもはるかに優れたパフォーマンスを発揮します。 しかし、彼らは同様のアプローチをとっており、GPT-4 を使用して独自のコードを作成し続けています。
通常、すべての優れた Minecraft データに基づいてモデルをトレーニングし、日が暮れたときにスケルトンと戦う方法をモデルが見つけてくれることを期待します。 ただし、Voyager は最初は比較的素朴で、ゲーム内で何かに遭遇すると、何をどのように行うべきかについて GPT-4 と内部で少し会話します。
たとえば、夜になって骸骨が出てきたとします。 エージェントはこれについて大まかな考えは持っていますが、このゲームの優れたプレイヤーは近くにモンスターがいる場合にどうするだろうかと自問します。 GPT-4 によれば、世界を安全に探索したい場合は、剣を作って装備し、攻撃を避けながらその剣でスケルトンを殴りましょう。 そして、何をすべきかという一般的な感覚は、石と木材を集め、作業台で剣を作り、装備し、スケルトンと戦うという具体的な目標に変換されます。
これらのことを完了すると、それらは一般的なスキル ライブラリに入力されるため、後で「鉄鉱石を見つけるために洞窟の奥深くに行く」というタスクが発生したときに、再び最初から戦うことを学ぶ必要はありません。 GPT は依然として GPT を使用していますが、より安価で高速な GPT-3.5 は、特定の状況に最も関連するスキルを通知するため、スケルトンを採掘したり、鉱石と戦ったりすることはありません。
これは、AutoGPT のようなエージェントが、まだ知らないインターフェイスに直面したときに、目的を達成するためにインターフェイスをナビゲートする方法を自分自身に学習させる必要があるのと似ています。 しかし、Minecraft はこれまで解決してきたものよりもはるかに奥深い環境であるため、Voyager のような専門エージェントの方がはるかに優れています。 他のボットよりも多くのものを見つけ、より多くのスキルを学習し、はるかに広い領域を探索します。
興味深いことに、おそらく驚くべきことではないかもしれませんが、有用なコードの生成に関しては、GPT-4 は GPT-3.5 (つまり ChatGPT) を上回ります。 前者を後者に置き換えたテストでは、エージェントは早い段階で、おそらく文字通りにさえ壁にぶつかり、改善できませんでした。 2 つのモデルと話してみても、どちらかがはるかに賢いことは明らかではないかもしれませんが、実際には、一見知的な会話を続けるのに特別に賢い必要はありません (どうしてわかるか聞いてください)。 コーディングははるかに難しく、GPT-4 は大きなアップデートでした。
この研究の目的は、Minecraft プレイヤーを時代遅れにすることではなく、比較的単純な AI モデルが「経験」に基づいて自らを改善できる方法を見つけることです。これ以上適切な言葉はありません。 家庭、病院、オフィスで私たちを支援してくれるロボットを導入する場合、ロボットはその教訓を学び、将来の行動に応用する必要があります。