WhisperのモデルをONNXにするその２

TadaoYamaoka https://blog.hatena.ne.jp/TadaoYamaoka/ TadaoYamaokaの開発日記 https://tadaoyamaoka.hatenablog.com/ Whisper C# 前回、WhisperのモデルをONNXにする方法について記述した。Whisperのモデルは、単体では音声認識はできず、音声をメルスペクトログラムにする前処理と、トークンをデコードして文字列にする後処理が必要になる。今回は、前処理と後処理をC#で実装する方法について記述する。音声認識の流れ以下のような流れで音声をテキストに変換する。音声を16kHzにリサンプリングする対数メルスペクトログラムに変換する ONNXモデルで推論する推論結果をトークン列にするトークン列をデコードしてUTF8の文字列にする以下ではそれぞれの処理の実装方法について記述する。音声を16kHzにリサンプリング… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Ftadaoyamaoka.hatenablog.com%2Fentry%2F2023%2F01%2F26%2F210641" title="WhisperのモデルをONNXにするその２ - TadaoYamaokaの開発日記" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2023-01-26 21:06:41 WhisperのモデルをONNXにするその２ rich https://tadaoyamaoka.hatenablog.com/entry/2023/01/26/210641 1.0 100%