Google の新しい AI がテキストを音楽に変換

Google の研究者は、テキストプロンプトから数分間の音楽を生成できる AI を作成しました。また、DALL-E のようなシステムがテキストプロンプトから画像を生成するのと同様に、口笛やハミングのメロディーを他の楽器に変換することもできます (経由 TechCrunch）。このモデルは MusicLM と呼ばれ、自分でいじることはできませんが、同社はたくさんのサンプルをアップロードしましたモデルを使って制作したものです。

例は印象的です。ジャンル、雰囲気、さらには特定の楽器を規定する段落の長さの説明から作成された実際の曲のように聞こえる 30 秒のスニペットと、「メロディックテクノ」のような 1 つまたは 2 つの単語から生成された 5 分間の曲があります。」おそらく私のお気に入りは、「ストーリーモード」のデモです。このモードでは、基本的に、プロンプト間でモーフィングするスクリプトがモデルに与えられます。たとえば、次のプロンプトです。

ビデオゲームで再生されるエレクトロニックソング (0:00-0:15)

川のそばで流れる瞑想の歌 (0:15-0:30)

火災 (0:30-0:45)

花火（0:45～0:60）

をもたらしましたここで聴ける音声.

万人向けではないかもしれませんが、これが人間によって構成されていることを完全に見ることができました (この記事を書いている間、ループで何十回も聞いていました)。また、デモサイトでは、チェロやマラカスなどの楽器の 10 秒のクリップを生成するように求められたときにモデルが生成するものの例も紹介されています (後者の例は、システムが比較的うまく機能していないものです)。特定のジャンル、脱獄に適した音楽、さらには初心者のピアノ奏者と上級者のピアノ奏者のように聞こえるものまで. 「フューチャリスティック・クラブ」や「アコーディオン・デス・メタル」などのフレーズの解釈も含まれています。

MusicLM は、人間のボーカルをシミュレートすることもできます。声のトーンと全体的なサウンドは適切に処理されているように見えますが、その品質には明らかにずれがあります。私がそれを説明できる最良の方法は、それらが粒子状または静的に聞こえるということです。上記の例ではその品質は明確ではありませんが、私は思うこれはそれをかなりよく示しています.

ちなみにそれは、ジムで流れるような音楽を作ってほしいと依頼した結果です。また、歌詞がナンセンスであることに気付いたかもしれませんが、注意を払っていない場合は必ずしも聞き取れない可能性があります。英語のように聞こえるはずなのにそうではないあの歌.

知っているふりはしない どうやって Google はこれらの結果を達成しましたが、研究論文を発表しましたあなたがこの数字を理解するタイプの人なら、それを詳細に説明してください：

SoundStream、w2v-BERT、MuLan を含む MusicLM のプロセスの一部を示す図。 — *研究者が使用する「階層的配列間モデリングタスク」を説明する図* *AudioLM、別の Google プロジェクト*.

AI によって生成された音楽には、数十年にさかのぼる長い歴史があります。クレジットされているシステムがありますポップソングの作曲、バッハのコピー 90年代の人間よりも、と伴奏ライブ. 最近のバージョンでは、AI 画像生成エンジン StableDiffusion を使用して、テキストプロンプトをスペクトログラムに変換それが音楽に変わります。この論文によると、MusicLM は、その「品質とキャプションの遵守」の点で他のシステムよりも優れているだけでなく、オーディオを取り込んでメロディーをコピーできるという事実も示しています。

その最後の部分は、おそらく研究者が発表した最もクールなデモの 1 つです。このサイトでは、誰かが曲をハミングしたり口笛を吹いたりする入力オーディオを再生し、モデルがそれを電子シンセのリード、弦楽四重奏、ギターソロなどとしてどのように再現するかを聞くことができます。私が聞いた例から、それは非常によくタスク。

この種の AI への他の進出と同様に、Google はかなり慎重同業者の一部が同様の技術を使用している可能性があるよりも、MusicLM を使用しています。「現時点でモデルをリリースする予定はありません」と論文は締めくくっており、「創造的なコンテンツの潜在的な不正流用」（読み：盗作）および潜在的な文化的流用または不実表示のリスクを挙げています.

ある時点でこの技術が Google の楽しい音楽実験の 1 つに登場する可能性は常にありますが、今のところ、この研究を利用できるのは、音楽 AI システムを構築している他の人々だけです。 Google は、約 5,500 の音楽とテキストのペアを含むデータセットを公開していると述べています。これは、他の音楽 AI のトレーニングと評価に役立つ可能性があります。

コメントする コメントをキャンセル

コメントするコメントをキャンセル