ダミール・ヤラロフ / メタバースの投稿:
マイクロソフトは、英語の音声データでトレーニングされ、3 秒間のサンプル オーディオで人の声をシミュレートできるテキスト読み上げ AI モデル VALL-E を発表しました。— 簡単に — トランスフォーマーベースの TTS モデル VALL-E は、任意の音声のわずか 3 秒のサンプルで、あらゆる音声でスピーチを生成できます。
ダミール・ヤラロフ / メタバースの投稿:
マイクロソフトは、英語の音声データでトレーニングされ、3 秒間のサンプル オーディオで人の声をシミュレートできるテキスト読み上げ AI モデル VALL-E を発表しました。— 簡単に — トランスフォーマーベースの TTS モデル VALL-E は、任意の音声のわずか 3 秒のサンプルで、あらゆる音声でスピーチを生成できます。