ChatGPT や Google の Bard などの生成人工知能は、自然言語処理と機械学習を使用して、クエリに応じて特定のテキストを生成します。 Meta の新しい生成 AI、 ボイスボックスは、オーディオ クリップを作成することで、少し異なる方法で処理します。
Voicebox、金曜日に発表 Facebook の親会社 Meta が開発した、2 秒の音声サンプルを使用して音声を合成できます。 このクリップを使用すると、オーディオ スタイルに一致させるだけでなく、テキスト読み上げの生成や、外部ノイズによって中断された可能性のある音声の一部を再作成することもできます。 Voicebox はそのサンプルを取得して、英語のテキストをフランス語、ドイツ語、スペイン語、ポーランド語、ポルトガル語などの他の言語で読み上げることもできます。
Meta 氏によると、Voicebox を使用すると、人々が仕事や遊び、たむろするデジタル世界であるメタバース内の仮想アシスタントやノンプレイヤー キャラクターに自然な音声を与えることができます。 また、視覚障害者が友人の声でメッセージを読み上げるのを聞くためにも利用できるだろう。
Voicebox はまだ開発中であり、まだ一般公開されていません。 Meta は、この AI が使用される可能性のある潜在的な危害を認識しており、本物の音声と Voicebox によって生成された音声を区別する効果的な方法に取り組んでいると述べています。
編集者注: CNET は、一部のストーリーの作成に AI エンジンを使用しています。 詳細については、この投稿を参照してください。