<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<oembed>
  <author_name>dk521123</author_name>
  <author_url>https://blog.hatena.ne.jp/dk521123/</author_url>
  <blog_title>プログラム の超個人的なメモ</blog_title>
  <blog_url>https://dk521123.hatenablog.com/</blog_url>
  <categories>
    <anon>Python</anon>
  </categories>
  <description>◾️はじめに やりたいこと 『画像又はPDFの情報からデータを抽出し、DBに入れるシステムを作成したい (無料のツールで)』があり、以下「【５】おまけ：構想していること」の 「１）処理フロー」と「２）システム構成」で考えている。 まず、その中の「Tesseract OCR」について、調べてみた 目次 【１】Tesseract OCR １）ライセンス ２）公式サイト 【２】環境設定 １）Docekerを使用した場合 【３】サンプル 【４】オプション １）--psm (ページセグメンテーションモード) ２）--oem ３）-l jpn ４）-c preserve_interword_spaces=…</description>
  <height>190</height>
  <html>&lt;iframe src=&quot;https://hatenablog-parts.com/embed?url=https%3A%2F%2Fdk521123.hatenablog.com%2Fentry%2F2025%2F10%2F03%2F141326&quot; title=&quot;【Python】Python 〜 Tesseract OCR 〜 - プログラム の超個人的なメモ&quot; class=&quot;embed-card embed-blogcard&quot; scrolling=&quot;no&quot; frameborder=&quot;0&quot; style=&quot;display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;&quot;&gt;&lt;/iframe&gt;</html>
  <image_url>https://cdn.image.st-hatena.com/image/square/adad63b72f1d6545b2ba2538c3fc2923b2fd5989/backend=imagemagick;height=80;version=1;width=80/https%3A%2F%2Fcdn.blog.st-hatena.com%2Fimages%2Fcircle%2Fofficial-circle-icon%2Fcomputers.gif</image_url>
  <provider_name>Hatena Blog</provider_name>
  <provider_url>https://hatena.blog</provider_url>
  <published>2025-10-03 14:13:26</published>
  <title>【Python】Python 〜 Tesseract OCR 〜</title>
  <type>rich</type>
  <url>https://dk521123.hatenablog.com/entry/2025/10/03/141326</url>
  <version>1.0</version>
  <width>100%</width>
</oembed>
