スキャンされたPDFを画像にして（pdf2image）、Tesseractで読み取る

nikkie-ftnext https://blog.hatena.ne.jp/nikkie-ftnext/ nikkie-ftnextの日記 https://nikkie-ftnext.hatenablog.com/ はじめにあなたのライブラリーから、点数で見たマナ・コストがＸ以下のアーティファクト・カードを１枚探し、それを場に出す。1 nikkieです。異常系への対応という文脈になりますが、PDFにもOCRを適用できるんです！目次はじめに目次 pdfminer.sixでPDFを読み取る pdf2image TesseractでOCR pytesseractでPythonからもOCR 終わりに pdfminer.sixでPDFを読み取る extract_text()関数にPDFのパスを渡すだけで読み取れました！しかしながら、スキャンされたPDFを読めない2ことも分かっています。例：https:… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fnikkie-ftnext.hatenablog.com%2Fentry%2Fpython-pdf2image-and-pytesseract-for-scanned-pdf" title="スキャンされたPDFを画像にして（pdf2image）、Tesseractで読み取る - nikkie-ftnextの日記" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2024-03-26 23:28:43 スキャンされたPDFを画像にして（pdf2image）、Tesseractで読み取る rich https://nikkie-ftnext.hatenablog.com/entry/python-pdf2image-and-pytesseract-for-scanned-pdf 1.0 100%