SpotifyはAIを利用して、ホストが読む本物の人間のように聞こえるポッドキャスト広告を作成するかもしれない

同社は、Spotify の AI DJ を利用して、実際の人の声、つまり文化的パートナーシップの責任者でありポッドキャストのホストでもあるザビエル “X” ジャーニガンの声で AI をトレーニングしました。今度はストリーマーが同じテクノロジーを広告に転用する可能性があるようだ。 The Ringerの創設者ビル・シモンズ氏の声明によると、このストリーミングサービスは、ホストが実際に広告コピーを読んで録音することなく、ポッドキャストホストの音声を使用してホストが読み上げる広告を作成できるAI技術を開発しているという。

シモンズ氏は最近の件について声明を発表した。エピソードビル・シモンズ・ポッドキャストの中で、「広告に私の声を使う方法が登場するだろう。当然、声を許可する必要がありますが、広告の観点から、さまざまな素晴らしい可能性が開かれます。」

同氏は、これらの広告は、リスナーの住む都市の地元イベントのチケットなど、地域をターゲットにした広告を掲載したり、ホストの許可があれば異なる言語で広告を作成したりできるため、ポッドキャスターにとって新たな機会を開く可能性があると述べた。

彼のコメントが最初に報じられたのは、セマフォル。

ザ・リンガーは2020年にSpotifyに買収されたが、シモンズ氏がこの分野でのストリーマーの計画について話す権限があるかどうかは明らかではなく、シモンズ氏は次のように述べていた。これは…」と情報を共有する前に。

Spotifyはコメントを求めたが、この機能の開発について直接肯定も否定もしなかった。

「私たちはSpotifyのエクスペリエンスを強化し、クリエイター、広告主、ユーザーに利益をもたらす新しいサービスをテストすることに常に取り組んでいます」とSpotifyの広報担当者はTechCrunchに語った。「AIの状況は急速に進化しており、イノベーションの長い歴史を持つSpotifyは、非常に人気のあるAI DJ機能を含む幅広いアプリケーションを模索しています。 500% 増加しましたデレク・トンプソンとビル・シモンズの会話を含む、過去 1 か月間 AI について議論した毎日のポッドキャストエピソードの数で。広告は将来の探求にとって興味深いキャンバスですが、現時点で発表できることは何もありません。」

このコメントのサブテキストは、シモンズの発言がやや時期尚早であった可能性があることを示しています。

そうは言っても、Spotify はすでに、ユーザーが将来遭遇する AI 音声は現在のアプリの AI DJ だけではないことを示唆しています。ジャーニガン氏は最近、Spotify が今後他の音声モデルと協力する計画について尋ねられたとき、「期待してください」とからかいました。

このストリーマーは AI の開発と研究にも密かに投資しており、現在数百人のチームがパーソナライゼーションや機械学習などの分野に取り組んでいます。さらに、チームは OpenAI モデルを使用し、大規模言語モデル、生成音声などの可能性を研究してきました。

AI 音声を作成する Spotify の機能は、Spotify が 2022 年に買収した Sonantic からの IP と OpenAI テクノロジーを組み合わせて活用しています。同社は最近私たちに、将来的には独自の社内 AI 技術の使用を選択する可能性があると語った。

AI DJ を作成するために、Spotify はジャーニガン氏にスタジオに入って、さまざまなリズムや感情のセリフを読み上げさせる高品質の録音を制作させました。彼はレコーディングでも自然な間や呼吸を保ち、単なる「歌」ではなく「曲」や「バンガー」など、彼がすでに話している言葉を必ず使用しました。これらすべてが AI モデルに入力され、AI 音声が作成されます。

同社はそのプロセスをさらに詳しく説明したり、ジャーニガンの録音をAI DJに変えるのにどれくらいの時間がかかったのかを説明したりしている。しかし、ポッドキャストのホストを AI 音声モデルに変えることに興味を持っている可能性があることを考えると、かなり効率的なプロセスを開発しているに違いありません。また、ポッドキャストの既存の録音を活用できる可能性もあります。

AI の声は新しいものではありませんが、本物の人間のように聞こえる機能はより現代的な発展です。数年前、Google はレストランに電話をかけて予約を取れる Duplex の人間のような AI を開発し、世界を驚かせました。しかし、この技術は当初、情報開示の欠如のために非難されました。今月、Apple はアクセシビリティ機能である Personal Voice を導入しました。これは、ユーザーが最初にモデルをトレーニングした後、15 分間かけてランダムに選択されたプロンプトを読み上げ、デバイス上でローカルに処理された後、ユーザー自身の声を模倣することができます。

コメントする コメントをキャンセル

コメントするコメントをキャンセル