先週、VALL-E と呼ばれる特に効果的な音声合成機械学習モデルが登場したことで、ディープフェイクの声が迅速かつ簡単に作成される可能性に対する新たな懸念が生じました。 しかし、VALL-E はブレークスルーというよりは反復的であり、その機能は皆さんが思っているほど新しいものではありません。 それがあなたが多かれ少なかれ心配する必要があることを意味するかどうかはあなた次第です.
音声複製は何年にもわたって熱心な研究の対象となっており、その結果は WellSaid、Papercup、Respeecher などの多くのスタートアップに十分な力を与えています。 後者は、ジェームズ・アール・ジョーンズのような俳優の認可された声の複製を作成するためにも使用されています. はい: 今後、ダース ベイダーは AI によって生成されます。
ヴァレ、 GitHub に投稿 先週 Microsoft でその作成者によって作成された . その大規模なトレーニング コーパスといくつかの新しい方法により、ターゲット スピーカーからのわずか 3 秒間のオーディオを使用して、「高品質のパーソナライズされたスピーチ」を作成できます。
つまり、必要なのは次のような非常に短いクリップだけです (すべて Microsoft の論文からのクリップ)。
非常によく似た合成音声を作成するには:
聞こえるように、トーン、音色、アクセントの類似性、さらには「音響環境」(たとえば、携帯電話の通話に圧縮された声) さえも維持します。 上記のどれがどれであるかは簡単にわかるので、あえてラベルを付けませんでした。 それはかなり印象的です!
実際、この特定のモデルは研究コミュニティの皮を突き破り、「主流になった」ように見えるほど印象的です。 昨夜、地元の店で飲み物を飲んでいたとき、バーテンダーは音声合成の新しい AI の脅威について力強く説明しました。 それが私が時代精神を誤って判断したことを私が知っている方法です.
しかし、少し振り返ってみると、2017 年という早い時期に必要だったのは、カジュアルな使用で合格するのに十分な説得力のある偽のバージョンを作成するための 1 分間の声だけでした。 そして、それは唯一のプロジェクトではありませんでした。
DALL-E 2 や Stable Diffusion などの画像生成モデル、または ChatGPT などの言語モデルで見られた改善は、変革的で質的なものでした: 1、2 年前、このレベルの詳細で説得力のある AI 生成コンテンツ不可能でした。 これらのモデルに関する懸念 (およびパニック) は理解でき、正当化されます。
逆に、VALL-E によって提供される改善は、 定量的 定性的ではありません。 偽の音声コンテンツの拡散に関心を持っている悪意のある人物は、はるか昔に、より多くの計算コストをかけて実行できた可能性があり、最近では特に見つけにくいものではありません。 特に国家が支援する攻撃者は、たとえば大統領がホット マイクで有害なことを言っている偽のオーディオ クリップを作成するために必要な種類のコンピューティング ジョブを実行するための十分なリソースを手元に用意できます。
別のテキスト読み上げシステムでしばらく働いていたエンジニアの James Betker と話をしました。 Tortoise-TTSと呼ばれる.
Betker 氏は、VALL-E は確かに反復的であり、最近の他の人気モデルと同様に、そのサイズから強みを得ていると述べました。
「ChatGPT や Stable Diffusion のような大きなモデルです。 それは、人間がどのように音声を形成するかについて、ある程度の固有の理解を持っています。 その後、特定のスピーカーで Tortoise やその他のモデルを微調整できます。 「のような音」ではありません。 良い、” 彼が説明した。
特定のアーティストの作品で Stable Diffusion を「微調整」する場合、巨大なモデル全体を再トレーニングするわけではありませんが (これにはより多くの電力が必要です)、そのコンテンツを複製する能力を大幅に向上させることができます。
しかし、慣れ親しんでいるからといって、却下すべきではない、と Betker 氏は明言した。
「人々にこれについて話してもらいたいので、それがいくらかの牽引力を得ていることをうれしく思います. 実際、私たちの文化が考えるように、スピーチは幾分神聖なものだと感じています」そして、これらの懸念の結果として、彼は実際に彼自身のモデルに取り組むことをやめました. DALL-E 2 によって作成された偽のダリは、自分の声、愛する人や尊敬する人の声で何かを聞くのと同じ内臓効果はありません。
VALL-E は私たちをユビキタスに一歩近づけます。携帯電話や自宅のコンピューターで実行するタイプのモデルではありませんが、それほど遠くない、と Betker は推測しています。 おそらく、自分でそのようなものを実行するには数年かかります。 例として、彼は、彼のオーディオブックの読みに基づいて、サミュエル L. ジャクソンの Tortoise-TTS を使用して自分の PC で生成したこのクリップを送信しました。
いいですよね? そして、数年前には、より多くの努力が必要ではありましたが、似たようなことを達成できたかもしれません。
これは、VALL-E と 3 秒のクイックフェイクが注目に値することは間違いありませんが、研究者が 10 年以上にわたって歩んできた長い道のりの 1 つのステップにすぎません。
脅威は何年も前から存在しており、もし誰かがあなたの声を真似したいと思っていたら、ずっと前に簡単にできたはずです. だからといって、考えるのが少しも不安になるわけではありません。 私も!
しかし、悪意のあるアクターにとってのメリットは疑わしいものです。 たとえば、間違った番号の呼び出しに基づいてまずまずのクイックフェイクを使用するささいな詐欺は、多くの企業のセキュリティ慣行がすでに緩いため、すでに非常に簡単です. 個人情報の盗難はありません 必要 お金とアクセスへのより簡単な方法がたくさんあるので、音声複製に頼る必要はありません。
一方、潜在的に大きなメリットがあります。病気や事故で話す能力を失った人々のことを考えてみてください。 これらのことは、モデルをトレーニングするための 1 時間の音声を記録する時間がないほど急速に発生します (この機能が広く利用可能になっているわけではありませんが、数年前にはあった可能性があります)。 しかし、VALL-E のようなものを使えば、夕食時に乾杯したり、友人と話したりしている誰かの電話をいくつかクリップするだけで済みます。
詐欺やなりすましなどの可能性は常にありますが、単純な電話詐欺やフィッシング詐欺など、はるかに平凡な方法でお金や身元を手放す人が増えています. このテクノロジーの可能性は非常に大きいですが、ここには危険なものがあるという私たちの総体的な直感にも耳を傾ける必要があります. パニックにならないでください — まだです。