bunkoOCRを試してみた

kyukyunyorituryo https://blog.hatena.ne.jp/kyukyunyorituryo/ KDP(電子出版)のメモ　急急如律令 https://99nyorituryo.hatenablog.com/ 青空文庫 OSSのOCRソフトがないかなと調べていると、精度良さげなのが出ていたので試してみた。特徴はふりがなを含めてOCRに表示できる。フリガナを除外する機能もある。 bunkoOCR lithium03.info スキャナーできれいに取り込んだものだと精度が高い。そこで「国立国会図書館デジタルコレクション」の画像をダウンロードして試してみた。問題なのが旧字体があるとミスが増える感じ。いいデータがないかなと思って、青空文庫をOyaziViewerで表示したものをocrにかけてみた。フォントを色々変えたり、背景色を変更などをすると間違いが多い部分も出てきた。フォントによって制度に差が出るのだろうか… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2F99nyorituryo.hatenablog.com%2Fentry%2F2023%2F09%2F24%2F020328" title="bunkoOCRを試してみた - KDP(電子出版)のメモ　急急如律令" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/k/kyukyunyorituryo/20230924/20230924015159.png Hatena Blog https://hatena.blog 2023-09-24 02:03:28 bunkoOCRを試してみた rich https://99nyorituryo.hatenablog.com/entry/2023/09/24/020328 1.0 100%