「これは実際にはうまくいきませんでした」と、DeepMind の研究者でもあり、論文の共著者の 1 人である Nicolas Heess 氏は言う。 問題の複雑さ、利用可能なオプションの膨大な範囲、およびタスクに関する予備知識の欠如のため、エージェントはどこから始めればよいかまったくわかりませんでした。
代わりに、Heess、Lever、および同僚は、ニューラル確率的運動プリミティブ (NPMP) を使用しました。NPMP は、AI モデルをより人間に似た動きのパターンに近づける教育方法であり、この基礎となる知識がどのように問題を解決するのに役立つかを期待しています。仮想サッカー場を移動します。 「それは基本的に、運動制御を現実的な人間の行動、現実的な人間の動きに偏らせます」とレバーは言います。 「そして、それはモーション キャプチャから学んだことです。この場合、人間の俳優がサッカーをしています。」
これにより、「アクション スペースが再構成されます」とレバーは言います。 エージェントの動きは、特定の方法でのみ曲げることができる人間のような体と関節によってすでに制限されており、実際の人間からのデータにさらされることでさらに制限され、問題を単純化するのに役立ちます。 「試行錯誤によって有用なものが発見される可能性が高くなります」とレバーは言います。 NPMP は学習プロセスを高速化します。 AI に人間と同じように物事を行うように教える一方で、問題に対する独自の解決策を発見するのに十分な自由を与えることの間には、「微妙なバランス」が必要です。 .
基本的なトレーニングに続いて、1 人用のドリル (ランニング、ドリブル、ボール蹴り) が行われ、完全な試合の状況に飛び込む前に人間が新しいスポーツを学ぶ方法を模倣しました。 強化学習の報酬は、ボールなしでターゲットをうまくフォローしたり、ターゲットの近くでボールをドリブルしたりすることでした。 このスキルのカリキュラムは、ますます複雑になるタスクに向けて構築するための自然な方法でした、とレバーは言います。
その目的は、エージェントがサッカー環境内でサッカーのコンテキスト外で学んだ可能性のあるスキルを再利用することを奨励することでした。つまり、一般化して、さまざまな動き戦略を切り替える際に柔軟になることです。 これらの訓練を習得したエージェントは、教師として使用されました。 AI が人間のモーション キャプチャから学んだことを模倣するよう奨励されたのと同じように、少なくとも最初は、教師エージェントが特定のシナリオで使用した戦略から大きく逸脱しないことにも報われました。 「これは実際には、トレーニング中に最適化されるアルゴリズムのパラメーターです」とレバーは言います。 「時間の経過とともに、彼らは原則として教師への依存を減らすことができます。」
仮想プレーヤーのトレーニングが完了したら、次はいくつかの対戦アクションを行います。シミュレーションの各ラウンドでエージェントが蓄積する経験量を最大化するために、2v2 および 3v3 ゲームから始めます (そして、実際の若いプレーヤーが小規模なゲームから始める方法を模倣します)。 )。 ハイライト—ここで見ることができます—公園で犬がボールを追いかけているような混沌としたエネルギーを持っています。 ゴールが決まるとき、それは複雑なパスの動きによるものではなく、希望に満ちたアップフィールドのパントと、バックウォールからのフーズボールのようなリバウンドによるものです。