数秒の単独ボイスデータから話者の特徴を認識して入力したテキストに声として反映させるVALL-E-Xを触る

Holomoto-Sumire https://blog.hatena.ne.jp/Holomoto-Sumire/ 夜風のMixedReality https://redhologerbera.hatenablog.com/ AI 本日はAI枠です。〇VALL-E-Xとは？ Microsoftは音声生成系のAIとしてVALL-EというAIを発表しています。 VALL-Eは、未知の話者（任意のスピーカー）の3秒程度の録音データをプロンプトとして使用してその人の合成音声を作成することができます。 VALL-Eは、特徴として単なるTextToSpeech(音声読み上げ機能)にとどまらず、感情や起伏などを考慮したより自然な音声を合成することができます。 www.microsoft.com VALL-E-XはVALL-Eを拡張し、基言語（日本語・英語など）の音声と合成したい言語のテキストをプロンプトとして使用して使用できるように… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fredhologerbera.hatenablog.com%2Fentry%2F2023%2F09%2F03%2F225204" title="数秒の単独ボイスデータから話者の特徴を認識して入力したテキストに声として反映させるVALL-E-Xを触る - 夜風のMixedReality" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/H/Holomoto-Sumire/20230903/20230903154249.png Hatena Blog https://hatena.blog 2023-09-03 22:52:04 数秒の単独ボイスデータから話者の特徴を認識して入力したテキストに声として反映させるVALL-E-Xを触る rich https://redhologerbera.hatenablog.com/entry/2023/09/03/225204 1.0 100%