技術の進歩により、AI システムが作成できるアートの忠実度が大幅に向上したため、テキストから画像への AI が今年爆発的に増加しました。 Stable Diffusion や OpenAI の DALL-E 2 などのシステムは物議を醸していますが、DeviantArt や Canva などのプラットフォームは、これらを採用してクリエイティブ ツールを強化し、ブランディングをパーソナライズし、さらには新製品を考案しています。
しかし、これらのシステムの中心にあるテクノロジーは、アートを生み出すだけではありません。 拡散と呼ばれるこの現象は、勇敢な研究グループによって、音楽の制作、DNA 配列の合成、さらには新薬の発見に使用されています。
では、拡散とは正確には何であり、なぜそれが以前の最先端技術を大きく飛躍させたのでしょうか? 年が明けるにつれて、拡散の起源と、それがどのように時間の経過とともに進歩し、今日の影響力を持つようになったかを見てみる価値があります。 Diffusion の話はまだ終わっていません — 月を追うごとに技術の改良が行われています — しかし、ここ 1、2 年は特に目覚ましい進歩を遂げました。
拡散の誕生
数年前のディープフェイク アプリの傾向を思い出すかもしれません。つまり、既存の画像や動画に人物のポートレートを挿入して、ターゲット コンテンツ内の元の主題をリアルに見えるように置き換えるアプリです。 アプリは AI を使用して、人物の顔 (場合によっては全身) をシーンに「挿入」し、一見しただけで誰かを騙すほど説得力があることがよくあります。
これらのアプリのほとんどは、Generative Adversarial Networks (略して GAN) と呼ばれる AI テクノロジに依存していました。 GAN は次の 2 つの部分で構成されます。 発生器 ランダムなデータと 弁別者 これは、トレーニング データセットから合成例と実際の例を区別しようとします。 (典型的な GAN トレーニング データセットは、GAN が最終的にキャプチャすることが期待されるものの数百から数百万の例で構成されます。) 生成器と弁別器の両方は、弁別器が合成された例から実際の例をより良い精度で区別できなくなるまで、それぞれの能力を向上させます。偶然に期待される 50% の精度。
トップパフォーマンスの GAN は、たとえば、次のスナップショットを作成できます。 架空のアパート. Nvidia が数年前に開発したシステム StyleGAN は、顔のポーズ、そばかす、髪などの属性を学習することで、架空の人物の高解像度のヘッド ショットを生成できます。 画像生成を超えて、GAN は 3D モデリング空間に適用され、 ベクター スケッチ、アウトプットの適性を示す ビデオクリップ としても スピーチ そしてさえ 楽器サンプルのループ 歌で。
ただし、実際には、GAN はそのアーキテクチャに起因する多くの欠点に悩まされていました。 ジェネレーター モデルとディスクリミネーター モデルの同時トレーニングは本質的に不安定でした。 ジェネレーターが「崩壊」して、似たようなサンプルをたくさん出力することがありました。 また、GAN を実行してトレーニングするには大量のデータと計算能力が必要であったため、スケーリングが困難でした。
拡散に入ります。
拡散のしくみ
拡散は、コーヒーに角砂糖が溶けるように、何かが高濃度の領域から低濃度の領域に移動する物理学のプロセスです。 コーヒーに含まれる砂糖の粒は、最初は液体の上部に集中していますが、徐々に分散していきます。
拡散システムは拡散から借用 非平衡熱力学 具体的には、 このプロセスは、時間の経過とともにシステムのエントロピー (またはランダム性) を増加させます。 気体を考えてみてください。最終的には、ランダムな動きによって空間全体を均一に満たすように広がります。 同様に、画像のようなデータは、ランダムにノイズを追加することで一様な分布に変換できます。
拡散システムは、ノイズだけが残るまでノイズを追加することで、データの構造をゆっくりと破壊します。
物理学では、拡散は自発的で不可逆的です — コーヒーに拡散した砂糖は立方体の形に戻すことはできません. しかし、機械学習の拡散システムは、一種の「逆拡散」プロセスを学習して、破壊されたデータを復元し、ノイズからデータを復元する能力を獲得することを目的としています。
拡散システムは、ほぼ 10 年前から存在しています。 しかし、CLIP (「Contrastive Language-Image Pre-Training」の略) と呼ばれる OpenAI の比較的最近のイノベーションにより、日常のアプリケーションでより実用的なものになりました。 CLIP は、画像などのデータを分類し、特定のテキスト プロンプト (「花の咲く芝生にいる犬のスケッチ」など) で分類される可能性に基づいて、拡散プロセスの各ステップを「スコアリング」します。
最初は、データのほとんどがノイズであるため、CLIP によって与えられたスコアが非常に低くなります。 しかし、拡散システムがノイズからデータを再構築するにつれて、ゆっくりとプロンプトの一致に近づきます。 有用な例えは、彫刻されていない大理石です。熟練した彫刻家が初心者に彫刻する場所を指示するように、CLIP は拡散システムをより高いスコアを与える画像に導きます。
OpenAI は、画像生成システム DALL-E とともに CLIP を導入しました。 それ以来、DALL-E の後継である DALL-E 2 や、Stable Diffusion などのオープン ソースの代替製品に採用されています。
拡散で何ができる?
では、CLIP ガイド付き拡散モデルは何ができるでしょうか? 先に触れたように、写真のようにリアルなアートから、ほぼすべてのアーティストのスタイルのスケッチ、ドローイング、ペインティングまで、彼らはアートを生み出すのが得意です。 実際、彼らがトレーニング データの一部を逆流しているという問題を示唆する証拠があります。
しかし、物議を醸すモデルの才能はそれだけではありません。
研究者はまた、ガイド付き拡散モデルを使用して新しい音楽を作成する実験も行っています。 ハルモナイ、から財政的支援を受けている組織 スタビリティAIStable Diffusion の背後にあるロンドンを拠点とするスタートアップ企業である は、何百時間もの既存の曲をトレーニングすることで、音楽のクリップを出力できる拡散ベースのモデルをリリースしました。 最近では、開発者の Seth Forsgren と Hayk Martiros が Riffusion という趣味のプロジェクトを作成しました。このプロジェクトでは、オーディオのスペクトログラム (視覚的表現) で巧みにトレーニングされた拡散モデルを使用してディティーを生成します。
音楽の領域を超えて、いくつかの研究室は、新しい病気の治療法を発見することを期待して、拡散技術を生物医学に適用しようとしています. スタートアップの Generate Biomedicines とワシントン大学のチームは、拡散ベースのモデルをトレーニングして、特定の特性と機能を持つタンパク質の設計を作成しました。 報告 今月上旬。
モデルはさまざまな方法で機能します。 Generate Biomedicines はノイズを追加します タンパク質を構成するアミノ酸鎖を解き、ランダムな鎖を組み合わせて新しいタンパク質を形成することにより、研究者によって指定された制約が導かれます. 一方、ワシントン大学のモデルは、スクランブル構造から開始し、タンパク質構造を予測するように訓練された別の AI システムによって提供される、タンパク質の断片がどのように組み合わさるべきかについての情報を使用します。
彼らはすでにある程度の成功を収めています。 ワシントン大学のグループによって設計されたモデルは、血中のカルシウム濃度を制御するホルモンである副甲状腺ホルモンに結合できるタンパク質を、既存の薬物よりもうまく見つけることができました.
一方、機械学習ベースのアプローチを生化学に導入するための安定性 AI 支援の取り組みである OpenBioML では、研究者は DNA 拡散と呼ばれるシステムを開発して、細胞型固有の調節 DNA 配列を生成しました。生物内の特定の遺伝子の発現。 DNA-Diffusion は、すべてが計画どおりに進めば、「X 型細胞で遺伝子を最大発現レベルまで活性化する配列」や「肝臓と心臓で遺伝子を活性化する配列」などのテキスト指示から制御 DNA 配列を生成します。 、しかし脳内ではありません。」
拡散モデルの将来はどうなるでしょうか? 空が限界かもしれません。 すでに、研究者はそれを ビデオの生成、 画像の圧縮 と 合成音声. これは、GAN が拡散を使用していたように、最終的に拡散がより効率的でパフォーマンスの高い機械学習手法に置き換えられないことを示唆しているわけではありません。 しかし、それには理由があります。 拡散は用途が広いとは言えません。