Whisperによる映像文字起こしの精度をLLMとOCRの力で向上させる

NTTCom https://blog.hatena.ne.jp/NTTCom/ NTT docomo Business Engineers' Blog https://engineers.ntt.com/ テクノロジー AI OSS イノベーションセンターの加藤です。この記事ではWhisperによる音声認識の前処理と後処理にLLMとOCRを組み込むことで、映像の文字起こし精度の向上を図った際の検証結果を紹介します。 Whisperとは OCRの結果を盛り込み専門用語を認識させる大規模言語モデルで全体の文章を調整する各アプローチの融合結果の考察まとめ Whisperとは Whisper1はOpenAIによって提供されているオープンソースの音声認識モデルです。色々なサイズのモデルが提供されており、最も大きいモデルであるlarge-v3は日本語を含む多言語に対応し高い認識精度を誇ります。しかしもちろん完璧ではなく、W… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fengineers.ntt.com%2Fentry%2F202506-whisper-ocr%2Fentry" title="Whisperによる映像文字起こしの精度をLLMとOCRの力で向上させる - NTT docomo Business Engineers' Blog" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/N/NTTCom/20250627/20250627114851.png Hatena Blog https://hatena.blog 2025-07-14 10:24:30 Whisperによる映像文字起こしの精度をLLMとOCRの力で向上させる rich https://engineers.ntt.com/entry/202506-whisper-ocr/entry 1.0 100%