続・BeautifulSoup で HTML 文書からタグを取り除く（Python）

s-yata https://blog.hatena.ne.jp/s-yata/ やた＠はてな日記 https://s-yata.hatenadiary.org/ 前回（BeautifulSoup で HTML 文書からタグを取り除く（Python） - やた＠はてな日記）の内容でも，ある程度は問題なく処理できていました．しかし，大量の HTML 文書を渡してみると，新たに 2 つの問題が見つかりました．それぞれの内容と今回の対処は以下のとおりです．深すぎる再帰呼び出しによる RuntimeError 例外 <p> を改行（<br>）の代わりに使っている HTML 文書や，バグ入りの自動生成プログラムにより作成された HTML 文書などが原因だろうと思います（未確認）．再帰呼び出しを使わずに ParseTree を探索するようにしました．不正な数値… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fs-yata.hatenadiary.org%2Fentry%2F20100621%2F1277111061" title="続・BeautifulSoup で HTML 文書からタグを取り除く（Python） - やた＠はてな日記" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2010-06-21 18:04:21 続・BeautifulSoup で HTML 文書からタグを取り除く（Python） rich https://s-yata.hatenadiary.org/entry/20100621/1277111061 1.0 100%