Google の研究者は、テキスト プロンプトから数分間の音楽を生成できる AI を作成しました。また、DALL-E のようなシステムがテキスト プロンプトから画像を生成するのと同様に、口笛やハミングのメロディーを他の楽器に変換することもできます (経由 TechCrunch)。 このモデルは MusicLM と呼ばれ、自分でいじることはできませんが、同社は たくさんのサンプルをアップロードしました モデルを使って制作したものです。
例は印象的です。 ジャンル、雰囲気、さらには特定の楽器を規定する段落の長さの説明から作成された実際の曲のように聞こえる 30 秒のスニペットと、「メロディック テクノ」のような 1 つまたは 2 つの単語から生成された 5 分間の曲があります。 」 おそらく私のお気に入りは、「ストーリー モード」のデモです。このモードでは、基本的に、プロンプト間でモーフィングするスクリプトがモデルに与えられます。 たとえば、次のプロンプトです。
ビデオゲームで再生されるエレクトロニック ソング (0:00-0:15)
川のそばで流れる瞑想の歌 (0:15-0:30)
火災 (0:30-0:45)
花火(0:45~0:60)
をもたらしました ここで聴ける音声.
万人向けではないかもしれませんが、これが人間によって構成されていることを完全に見ることができました (この記事を書いている間、ループで何十回も聞いていました)。 また、デモ サイトでは、チェロやマラカスなどの楽器の 10 秒のクリップを生成するように求められたときにモデルが生成するものの例も紹介されています (後者の例は、システムが比較的うまく機能していないものです)。特定のジャンル、脱獄に適した音楽、さらには初心者のピアノ奏者と上級者のピアノ奏者のように聞こえるものまで. 「フューチャリスティック・クラブ」や「アコーディオン・デス・メタル」などのフレーズの解釈も含まれています。
MusicLM は、人間のボーカルをシミュレートすることもできます。声のトーンと全体的なサウンドは適切に処理されているように見えますが、その品質には明らかにずれがあります。 私がそれを説明できる最良の方法は、それらが粒子状または静的に聞こえるということです。 上記の例ではその品質は明確ではありませんが、私は思う これはそれをかなりよく示しています.
ちなみにそれは、ジムで流れるような音楽を作ってほしいと依頼した結果です。 また、歌詞がナンセンスであることに気付いたかもしれませんが、注意を払っていない場合は必ずしも聞き取れない可能性があります。 英語のように聞こえるはずなのにそうではないあの歌.
知っているふりはしない どうやって Google はこれらの結果を達成しましたが、 研究論文を発表しました あなたがこの数字を理解するタイプの人なら、それを詳細に説明してください:
AI によって生成された音楽には、数十年にさかのぼる長い歴史があります。 クレジットされているシステムがあります ポップソングの作曲、バッハのコピー 90年代の人間よりも、 と 伴奏ライブ. 最近のバージョンでは、AI 画像生成エンジン StableDiffusion を使用して、 テキストプロンプトをスペクトログラムに変換 それが音楽に変わります。 この論文によると、MusicLM は、その「品質とキャプションの遵守」の点で他のシステムよりも優れているだけでなく、オーディオを取り込んでメロディーをコピーできるという事実も示しています。
その最後の部分は、おそらく研究者が発表した最もクールなデモの 1 つです。 このサイトでは、誰かが曲をハミングしたり口笛を吹いたりする入力オーディオを再生し、モデルがそれを電子シンセのリード、弦楽四重奏、ギターソロなどとしてどのように再現するかを聞くことができます。私が聞いた例から、それは非常によくタスク。
この種の AI への他の進出と同様に、Google は かなり慎重 同業者の一部が同様の技術を使用している可能性があるよりも、MusicLM を使用しています。 「現時点でモデルをリリースする予定はありません」と論文は締めくくっており、「創造的なコンテンツの潜在的な不正流用」(読み:盗作)および潜在的な文化的流用または不実表示のリスクを挙げています.
ある時点でこの技術が Google の楽しい音楽実験の 1 つに登場する可能性は常にありますが、今のところ、この研究を利用できるのは、音楽 AI システムを構築している他の人々だけです。 Google は、約 5,500 の音楽とテキストのペアを含むデータセットを公開していると述べています。これは、他の音楽 AI のトレーニングと評価に役立つ可能性があります。