発話区間検出ライブラリSilero VADを使ってみた

sato_susumu https://blog.hatena.ne.jp/sato_susumu/ 佐藤百貨店 https://www.sato-susumu.com/ 音声認識システムを使うとき、無音部分までデータを送るのは料金だったりリソースの無駄になりがち。それに、無音や雑音を音声認識させると、何かと変な結果が返ってきがち。そこで前々から気になっていたのがVAD(Voice Activity Detection、発話区間検出)。中でもSilero VADは精度が高いらしいけど、・ストリーミングで発話区間を検出して・ソースコードがコンパクトで・全体の音声データをWAV形式で保存して・発話部分だけを切り出して、これもWAV形式で保存して・発話ごとのラベル情報を記録してといったサンプルが見つからなかったので、自分で作ってみました。もちろん、… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fwww.sato-susumu.com%2Fentry%2Fsilero_vad" title="発話区間検出ライブラリSilero VADを使ってみた - 佐藤百貨店" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/s/sato_susumu/20241218/20241218192418.png Hatena Blog https://hatena.blog 2024-12-18 19:31:05 発話区間検出ライブラリSilero VADを使ってみた rich https://www.sato-susumu.com/entry/silero_vad 1.0 100%