3 月、Spotify は、説得力のあるリアルな音声を備えたスマート オーディオ ガイドである AI DJ のデビューにより、最初の AI を利用した機能を開始しました。 その AI ペルソナは実際には実在の人物に基づいていたことが判明しました。Spotify の文化パートナーシップの責任者であり、AI 機能の最初の音声モデルになることを光栄に思っていた Xavier “X” Jernigan です。
TechCrunch は Jernigan にインタビューし、AI をトレーニングするプロセスと Spotify の AI DJ の取り組みに関する将来の計画について詳しく学びました。
新しい AI DJ は、リスナーの音楽鑑賞体験をパーソナライズし、興味に基づいて音楽のセレクションをキュレーションします。 また、実際のラジオの司会者のように、各曲について解説を話します。
ジャーニガンは Spotify での主な役割に加えて、「The Window」、「Showstopper」、現在は廃止されたポッドキャスト「The Get Up」など、さまざまな Spotify ポッドキャストのホストでもあります。 そのため、彼は何百万人ものリスナーに自分の声を聞いてもらうことに慣れています。 それでも、彼の声が AI として記憶されるというのは、他にはない経験です。
Spotify がジャーニガンを最初の声優モデルに選んだのは、彼の「声と性格がすでに多くのリスナーの共感を呼んでいたからです」とジャーニガンは TechCrunch に語った。 「[The company was] 私もこのように共鳴するだろうとかなり確信しています。
Spotify のモーニング ショー「The Get Up」は 600 万人近くのリスナーを獲得し、2022 年に突然終了するまで Spotify でトップ 10 のポッドキャストであり、ジャーニガンの魅力を示しています。
それでも、DJ のボイス モデルであることは、最初は理解しにくかったと、ポッドキャストのホストは認めています。
「DJ の声優モデルになることを提案されたのですが、説明を受けたときは本当に驚きました」と Jernigan は語っています。 「これを初めて聞いて何も見るものがなくて、『待って、なに? それは私になるだろうが、それは私ではない、テキストと音声だろうが、それは私のように聞こえるだろう、そしてそれはAIだ?」
「私にとって、このように AI を扱うのは新しい経験でした。 私はただ圧倒されました」と彼は付け加えました。
Spotify によると、同社の AI DJ は Sonantic と OpenAI テクノロジーの両方を使用して構築されたという。
Sonantic は Spotify が昨年買収した AI スタートアップです。 同社の技術は、「トップガン: マーベリック」でヴァル・キルマーの声に使用されたものを含む、AI ベースのリアルな声の作成を担当しました。
買収に先立ち、Spotify は AI を活用した技術の研究に数年を費やし、DJ 機能の開発に「何回か繰り返して」取り組んだと、ジャーニガン氏は述べています。 彼はプロセスにかかった正確な時間を共有することを拒否しましたが、Sonantic テクノロジーを統合することで「本当に加速した」と述べました。
Jernigan 氏は、AI をトレーニングするプロセスについて説明しました。これには、スタジオに入り、台本を読み上げ、さまざまなリズムや抑揚で話し、さまざまな感情を伝えました。 彼は AI に特定の言葉を与え、それをできるだけ本物に感じさせるために彼だけが使用しました。
「私は私が言う言葉を使います…私は曲に対して「曲」とは言いません。 それは私の話し方ではありません」と彼は言いました。 「私は『ヒット』または『バンガーズ』と言います。 だから、あなたはDJがそのような言葉を言うのを聞くでしょう」とジャーニガンは続けた. 「私たちは、「こんにちは」と言う方法、「こんにちは」と言う方法など、プロセス全体を実行しました。 ノートを持ち歩いて、自分が言いそうなさまざまなフレーズを書き留めていました。」
Spotify チームは、AI の声が真に人間のように聞こえるように、彼の自然な休止と呼吸を確実に維持したと彼は付け加えました。
ジャーニガンのお母さんでさえ、結果に彼女の承認のスタンプを与えました.
「[DJ] ママ試験合格。 私はそれが出る前に彼女のためにそれを演奏し、彼女に説明しました. 「彼女は私のポッドキャストをすべて聞いていたので、私の声を以前に録音して再生するのを聞いていたので、『それはあなたのように聞こえます』と言っていました。 母はそれが私のように聞こえると言ったので、私はそれが的を射ていることを知っていました.
現実的な AI の声はすでに存在しますが、Spotify の DJ は、これまでに聞いた他のものと比較して、最も穏やかで冷静なサウンドであると言えます。 Google の Duplex テクノロジーは本物のように聞こえるかもしれませんが、夏のジャム プレイリストに合わせて盛り上がろうとしているときに聞くのが良いとは限りません。
「声優という立場で演技をする私にとっては、人とつながり、人と会話し、一人の人のことを考えることが目的でした。 そのため、AI のトレーニングを行っていたとき、スタジオにいる 1 人の人物と話し、友達になっている姿を思い浮かべました」と彼は付け加えました。
AIの声が聞き取りやすい音になるだけでなく、DJ自体のデザインも親しみやすいものにしました。
DJ を聴いているときにユーザーが見るアニメーションの緑色の円は、Spotify のロゴにうなずき、AI が話すときに口のように動きます。
「デザインに関しては、エクスペリエンス全体について考えました。どのように機能し、どのように聞こえるか、どのように見えるか、そしてどのように各ユーザーにパーソナライズするかです」と Spotify のパーソナライゼーションのプロダクト デザイン責任者であるエミリー ギャロウェイ (Emily Galloway) は語った。 TechCrunch. 「視覚的な面では、早い段階で、より技術的に感じられるいくつかのオプションを検討しました (音波などを想像してください)。 しかし、私たちは AI を人間化したかったので、これは正しくないと感じました…」
「見た目も雰囲気もユニークなものにしたかったのです。 実際、非常にユニークだったので、デザイン特許を取得しました」とギャロウェイ氏は付け加えました。
Jernigan は、彼の声を録音する以外にも、他の方法で DJ に貢献しました。
AI が音楽に関する専門家のコメントを提供するために、Spotify は、キュレーター、文化の専門家、音楽の専門家で構成されるライターの部屋をまとめました。
ジャーニガンは音楽に幅広いバックグラウンドを持っているため、作家の部屋にも参加していました。 彼は以前、Diddy、Amy Winehouse、2 Chainz などのトップ アーティストと仕事をしていました。
Jernigan は DJ の最初の音声モデルですが、リスナーが将来さらに多くの音声を聞く可能性があります。
TechCrunch は Jernigan に、同社が他の言語を話す音声モデルを採用する計画があるかどうか尋ねました。
「お楽しみに」と彼はほのめかした。
AI DJ は現在、米国とカナダのプレミアム サブスクライバー向けに英語でのみ利用できます。 2 月現在、DJ 機能はまだベータ テスト中です。
「非常にクールな新機能が全面的に出てきました」と Jernigan 氏は言います。 「私たちは本当にドープなものが出てきています。」