何十年もの間、学習はロボット工学における聖杯でした。 これらのシステムが予測不可能な環境でもうまく機能する場合、プログラミングに対応するだけではなく、適応して学習する必要があります。 専門家と話をしたり読んだりすればするほど明らかになったのは、真のロボット学習には多くのソリューションの組み合わせが必要であるということです。
ビデオは、この分野における最近の多くの研究の中心となっている興味深いソリューションです。 昨年のほぼ今頃、私たちは WHIRL (in-the-Wild Human Imitating Robot Learning) に注目しました。これは、人間がタスクを実行する記録を見てロボット システムをトレーニングするように設計された CMU 開発のアルゴリズムです。
今週は、CMUロボティクス研究所助教授ディーパック・パサック氏が語った。 VRBを展示しています (Vision-Robotics Bridge)、WHIRL への進化。 前世代と同様に、このシステムは人間のビデオを使用してタスクをデモンストレーションしますが、このアップデートでは、ロボットが動作する設定と同じ設定で実行する必要はなくなりました。
「私たちはロボットをキャンパス内に連れて行き、あらゆる種類のタスクを実行することができました」と博士課程の学生、シカール・バール氏は声明で述べている。 「ロボットはこのモデルを使用して、周囲の世界を興味深く探索できます。 ロボットは単に腕を振り回すのではなく、より直接的に対話することができます。」
ロボットは、接触点や軌道など、いくつかの重要な情報を監視しています。 チームは引き出しを開けることを例に挙げています。 接触点はハンドルであり、軌道はハンドルが開く方向です。 「人間が引き出しを開けるビデオを何本か見た後、ロボットは引き出しの開け方を判断できるようになる」と CMU は述べています。
明らかに、すべてのドロワーが同じように動作するわけではありません。 人間は引き出しを開けるのがかなり上手になってきましたが、それは時折現れる奇妙な構造のキャビネットが私たちに問題を引き起こさないという意味ではありません。 結果を改善するための重要なトリックの 1 つは、トレーニング用に大規模なデータセットを作成することです。 CMU は、Epic Kitchens や Ego4D などのデータベースからのビデオに依存しています。Ego4D には、「世界中の日常活動を記録した約 4,000 時間の自己中心的なビデオ」が含まれています。
Bahl 氏は、潜在的なトレーニング データの膨大なアーカイブが監視を待っていると指摘しています。 「私たちはこれらのデータセットをこれまでとは異なる新しい方法で使用しています」と研究者は述べています。 「この研究により、ロボットが利用可能な膨大な量のインターネットや YouTube ビデオから学習できるようになる可能性があります。」