AI の世界を席巻する次のブレイクスルーは、3D モデル ジェネレーターかもしれません。 今週、OpenAI は、テキスト プロンプトが与えられた 3D オブジェクトを作成する機械学習システムである Point-E をオープンソース化しました。 によると 論文 と並んで公開された コードベース、Point-E は、単一の Nvidia V100 GPU で 1 ~ 2 分で 3D モデルを作成できます。
Point-E は、従来の意味で 3D オブジェクトを作成しません。 むしろ、点群、または 3D 形状を表す空間内のデータ ポイントの個別のセットを生成します。 (Point-E の「E」は「効率」の略です。これは、以前の 3D オブジェクト生成アプローチよりも表向きは高速であるためです。) ポイント クラウドは、計算の観点から合成するのが簡単ですが、オブジェクトの細粒度をキャプチャしません。形状またはテクスチャ — 現在の Point-E の主な制限です。
この制限を回避するために、Point-E チームは追加の AI システムをトレーニングして、Point-E の点群をメッシュに変換しました。 (メッシュ — オブジェクトを定義する頂点、エッジ、および面のコレクション — は、3D モデリングとデザインで一般的に使用されます。) しかし、論文では、モデルがオブジェクトの特定の部分を見逃すことがあり、ブロック状または歪んだ形状になることがあると指摘しています。
スタンドアロンのメッシュ生成モデル以外では、Point-E はテキストから画像へのモデルと画像から 3D へのモデルの 2 つのモデルで構成されます。 テキストから画像へのモデルは、OpenAI 独自の DALL-E 2 や Stable Diffusion などのジェネレーティブ アート システムと同様に、ラベル付き画像でトレーニングされ、単語と視覚的概念の関連性を理解しました。 一方、画像から 3D へのモデルには、3D オブジェクトとペアになった一連の画像が供給され、2 つのオブジェクト間で効果的に変換することを学習しました。
テキスト プロンプト (たとえば、「3D 印刷可能な歯車、直径 3 インチ、厚さ 0.5 インチの単一の歯車」) が与えられると、Point-E のテキストから画像へのモデルは合成レンダリング オブジェクトを生成し、それが画像から-点群を生成する 3D モデル。
「数百万」の 3D オブジェクトと関連するメタデータのデータ セットでモデルをトレーニングした後、Point-E は、テキスト プロンプトと頻繁に一致する色付きの点群を生成できた、と OpenAI の研究者は述べています。 完璧ではありません — Point-E の画像から 3D へのモデルは、テキストから画像へのモデルからの画像を理解できないことがあり、その結果、テキスト プロンプトと一致しない形状になります。 それでも、少なくとも OpenAI チームによると、これまでの最先端技術よりも桁違いに高速です。
「この評価では、私たちの方法は最先端の技術よりもパフォーマンスが悪いですが、わずかな時間でサンプルを生成します」と彼らは論文に書いています。 「これにより、特定のアプリケーションでより実用的になるか、より高品質の 3D オブジェクトの発見が可能になる可能性があります。」
正確には、アプリケーションとは何ですか? OpenAI の研究者は、Point-E の点群を使用して、たとえば 3D 印刷などによって現実世界のオブジェクトを製造できると指摘しています。 メッシュ変換モデルを追加することで、このシステムは (もう少し洗練されれば) ゲームやアニメーションの開発ワークフローにも取り入れられる可能性があります。
OpenAI は 3D オブジェクト ジェネレーターの争いに飛び込む最新の企業かもしれませんが、前述のように、最初の企業ではないことは確かです。 今年初め、Google は Dream Fields の拡張バージョンである DreamFusion をリリースしました。Dream Fields は、同社が 2021 年に発表したジェネレーティブ 3D システムです。Dream Fields とは異なり、DreamFusion は事前のトレーニングを必要としないため、3D データなしでオブジェクトの 3D 表現を生成できます。
現在、すべての目が 2D アート ジェネレーターに向けられていますが、モデルを合成する AI は、次の大きな業界のディスラプターになる可能性があります。 3D モデルは、映画やテレビ、インテリア デザイン、建築、さまざまな科学分野で広く使用されています。 たとえば、建築会社はそれらを使用して提案された建物や景観のデモを行い、エンジニアはモデルを新しいデバイス、車両、および構造の設計として活用します。
ただし、3D モデルの作成には通常、数時間から数日かかります。 Point-E のような AI は、問題がいつか解決されれば、それを変えることができ、そうすることで OpenAI にかなりの利益をもたらすことができます。
問題は、いずれどのような知的財産紛争が発生する可能性があるかということです。 3D モデルには大きな市場があり、アーティストが作成したコンテンツを販売できる CGStudio や CreativeMarket などのオンライン マーケットプレイスがいくつかあります。 Point-E が流行り、そのモデルが市場に出回れば、モデル アーティストは抗議し、最新の生成 AI がそのトレーニング データ (Point-E の場合は既存の 3D モデル) から多くを借用しているという証拠を指摘するかもしれません。 DALL-E 2 と同様に、Point-E はその世代に影響を与えた可能性のあるアーティストの名前を挙げたり引用したりしていません。
しかし、OpenAI はその問題を別の日に残しています。 Point-E の論文も GitHub ページも、著作権について言及していません。
彼らの名誉のために、研究者は 行う ポイントEが苦しむことを期待していると述べています 他の たとえば、トレーニング データから継承されたバイアスや、「危険なオブジェクト」の作成に使用される可能性のあるモデルに関する保護手段の欠如などです。 それがおそらく彼らが Point-E を、テキストから 3D への合成の分野での「さらなる研究」に刺激を与えることを期待する「出発点」として特徴づけることに注意を払っている理由です。