AI がチャット ボックスからリビング ルームに進出する場合、空間とオブジェクトをよりよく理解する必要があります。 その作業をさらに進めるために、アレン人工知能研究所は 巨大で多様な 3D モデルのデータベースを作成 AI モデルのシミュレーションは、より現実に近いものになる可能性があります。
シミュレーターは基本的に、ロボットや AI がナビゲートまたは理解する必要のある実際の場所を表すことを目的とした 3D 環境です。 しかし、たとえば最新のコンソール ゲームとは異なり、トレーニング シミュレーターはフォトリアリスティックとはほど遠いものであり、多くの場合、詳細、バリエーション、またはインタラクティブ性が欠けています。
オブジャバースは、ぎこちなく、しかしなんとなく心地よく名前が付けられているため、あらゆる種類のメタデータを含む 800,000 を超える (そして増加している) 3D モデルのコレクションでこれを改善することを目指しています。 表現されるものは、さまざまな種類の食品から、テーブルと椅子、電化製品やガジェットにまで及びます。 家庭、オフィス、またはレストランで目にする可能性がある比較的普通のオブジェクトがここに表示されます。
これは、古いスタンバイ データベースである ShapeNet などの老朽化したオブジェクト ライブラリを、詳細度の低い約 50,000 モデルに置き換えることを目的としています。 あなたの AI が見た唯一の「ランプ」がパターンや色のない一般的なランプである場合、ファンキーなカットグラスやまったく異なる形状のランプをどのように認識できるでしょうか? Objaverse には一般的なオブジェクトのバリエーションが含まれているため、モデルはそれらの違いにかかわらずオブジェクトを定義するものを学習できます。
確かに、AI アシスタントが本棚を「中世」かどうかを識別する必要はないかもしれませんが、皮をむいたバナナと皮をむいていないバナナの違いを確実に認識できる必要があります。 しかし、何が問題になるかは決してわかりません。
フォトリアリスティックな画像 (フォトグラメトリでキャプチャしたことは明らかです) を使用すると、振り返ってみると明らかなレベルの多様性とリアリズムももたらされます。 確かに、すべてのベッドはほぼ同じように見えますが、整えられていないベッドはどうでしょうか? すべて違う!
必要に応じて、「主なこと」を行うためにアニメーション化するオブジェクトを用意することも役立ちます。 冷蔵庫、キャビネット、本、ラップトップ、またはガレージのドアがどのように見えるかを知ることと、開いていることは別のことですが、A から B にどのように移動するのでしょうか? 単純に聞こえるかもしれませんが、AI モデルにこの情報が提供されなければ、発明したり直感的に理解したりすることはほとんどありません。
この巨大なデータセットの特徴と詳細について詳しく読むことができます それを説明するAI2論文で. もしあなたが研究者なら、 Hugging Face から今すぐ無料で使い始めることができます.