統計的声質変換 (4) パラレルデータの作成

aidiary https://blog.hatena.ne.jp/aidiary/ 人工知能に関する断創録 https://aidiary.hatenablog.com/ 音声信号処理音声合成統計的声質変換 (3) メルケプストラムの抽出（2015/3/4）の続き。前回は変換元のclbさんと変換先のsltさんのメルケプストラムを一括抽出した。前回の最後の結果を見ると、二人のしゃべる速さが違うためメルケプストラムが時間方向にずれていることがわかった。たとえば、下の図は青色がclbさんのメルケプストラム系列、緑色がsltさんのメルケプストラム系列を表している。赤の矢印の場所で形状が似ているが位置がずれていることがわかる。このずれはメルケプストラム間の変換モデルを学習するときに問題になるため時間同期を取る。この時間同期を取ったデータをパラレルデータと呼ぶ。 DTW (Dynamic … 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Faidiary.hatenablog.com%2Fentry%2F20150310%2F1425983455" title="統計的声質変換 (4) パラレルデータの作成 - 人工知能に関する断創録" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> http://cdn-ak.f.st-hatena.com/images/fotolife/a/aidiary/20150310/20150310192355.png Hatena Blog https://hatena.blog 2015-03-10 19:30:55 統計的声質変換 (4) パラレルデータの作成 rich https://aidiary.hatenablog.com/entry/20150310/1425983455 1.0 100%