Sohl-Dickstein は、拡散の原理を使用して生成モデリングのアルゴリズムを開発しました。 アイデアは単純です。このアルゴリズムは、最初にトレーニング データ セット内の複雑な画像を単純なノイズに変換します (インクの塊から水色の水を拡散させるのと似ています)。次に、プロセスを逆にしてノイズを画像に変換する方法をシステムに教えます。
仕組みは次のとおりです。まず、アルゴリズムはトレーニング セットから画像を取得します。 前述のように、100 万個のピクセルのそれぞれに何らかの値があり、画像を 100 万次元空間のドットとしてプロットできるとしましょう。 このアルゴリズムは、タイム ステップごとに各ピクセルにいくらかのノイズを追加します。これは、1 つの小さなタイム ステップの後のインクの拡散に相当します。 このプロセスが続くと、ピクセルの値は元の画像の値との関係が少なくなり、ピクセルは単純なノイズ分布のように見えます。 (アルゴリズムはまた、各タイム ステップで、各ピクセル値を原点 (これらすべての軸のゼロ値) に向かってわずかに微調整します。この微調整により、ピクセル値が大きくなりすぎてコンピュータが簡単に処理できなくなるのを防ぎます。)
データ セット内のすべての画像に対してこれを行うと、100 万次元空間内のドットの最初の複雑な分布 (記述もサンプリングも容易ではありません) が、原点の周りのドットの単純な正規分布に変わります。
「変換のシーケンスは非常にゆっくりとデータ分布を大きなノイズ ボールに変えます」と Sohl-Dickstein 氏は述べています。 この「転送プロセス」により、簡単にサンプリングできる分布が得られます。
次は機械学習の部分です。フォワード パスから取得したノイズの多い画像をニューラル ネットワークに与え、それをトレーニングして、1 ステップ前のノイズの少ない画像を予測します。 最初は間違いを犯すので、ネットワークのパラメーターを微調整して、より良くします。 最終的に、ニューラル ネットワークは、単純な分布のサンプルを表すノイズの多い画像を、複雑な分布のサンプルを表す画像に確実に変換できます。
訓練されたネットワークは本格的な生成モデルです。 これで、フォワード パスを実行するための元の画像は必要ありません。単純な分布の完全な数学的記述が得られたので、そこから直接サンプリングできます。 ニューラル ネットワークは、このサンプル (本質的には静的なもの) を、トレーニング データ セット内の画像に似た最終的な画像に変換できます。
Sohl-Dickstein は、彼の拡散モデルの最初の結果を思い出します。 「あなたは目を細めて、『あの色のついた塊はトラックのように見えると思う』と思うだろう」と彼は言った. 「人生の何ヶ月もの間、ピクセルのさまざまなパターンを見つめ、構造を理解しようとしてきたので、『これまでにないほど構造化されている』と感じました。 とても興奮しました。」
未来の構想
Sohl-Dickstein は彼の 拡散モデル アルゴリズム 2015年に、しかしそれはまだGANができることからはるかに遅れていました. 拡散モデルは分布全体をサンプリングでき、画像のサブセットのみを吐き出すことはありませんが、画像の見栄えが悪く、プロセスが遅すぎました。 「当時、これはエキサイティングなものとは見なされなかったと思います」と Sohl-Dickstein 氏は述べています。
Sohl-Dickstein のこともお互いのことも知らなかった 2 人の学生が、この最初の研究の点を DALL·E 2 のような現代の拡散モデルに結び付けるのに必要でした。 . 2019年、彼と彼のアドバイザー 新しい方法を発表しました データの確率分布 (高次元面) を推定しない生成モデルを構築する場合。 代わりに、分布の勾配を推定しました (高次元の表面の勾配と考えてください)。