E-BranchformerとMask CTCで高精度かつ高速な音声認識モデルを構築する

revcomm-tech https://blog.hatena.ne.jp/revcomm-tech/ RevComm Tech Blog https://tech.revcomm.co.jp/ 音声解析技術解説概要こんにちは、RevCommでMiiTelの音声解析機能に関する研究開発を担当している石塚です。前回のRevComm Tech Blogにて、2023年時点でSOTAの精度であったE-Branchformer[1]を利用して日本語の音声認識モデルを構築する記事について書きました。前回の実験において、E-Branchformerで構築したモデルは、精度ではConformerで構築したモデルより優れていましたが、スピードはConformerで構築したモデルよりも少し遅いものとなっていました。音声認識システムの実運用を考えると、音声認識のスピードは非常に重要です。そこで今回は、高速な非自己回… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Ftech.revcomm.co.jp%2Ftrain-e-branchformer-mask-ctc-asr-using-csj" title="E-BranchformerとMask CTCで高精度かつ高速な音声認識モデルを構築する - RevComm Tech Blog" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/r/revcomm-tech/20240723/20240723152035.png Hatena Blog https://hatena.blog 2024-07-24 11:00:00 E-BranchformerとMask CTCで高精度かつ高速な音声認識モデルを構築する rich https://tech.revcomm.co.jp/train-e-branchformer-mask-ctc-asr-using-csj 1.0 100%