HTMLファイルからデータの抽出

MikuHatsune https://blog.hatena.ne.jp/MikuHatsune/ 驚異のアニヲタ社会復帰の予備 https://mikuhatsune.hatenadiary.com/ R 臨床研修病院解析 LINUX Python データを取得したわけだが、ここから病院紹介文や給与などを抽出しよう。まず、作業ディレクトリpmet2013を作り、そこにhtmlファイルがたくさんあるとする。保存したファイルと病院名を取得する。 #ターミナル ls *html > hospital.txt HTMLファイルにはいろいろ構造があるらしく、うまくparseしたらいろいろ情報が取れるらしいのだが(HTMLParserやBeautifulSoup)、よくわからなかったので文字列マッチでゴリ押しした。また、数値だけほしいところにものすごい邪魔な注意書きみたいなことを書くやつがいるので、本当に抽出したい数列の前後を指定してsplit… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fmikuhatsune.hatenadiary.com%2Fentry%2F20130217%2F1360920802" title="HTMLファイルからデータの抽出 - 驚異のアニヲタ社会復帰の予備" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2013-02-17 18:33:22 HTMLファイルからデータの抽出 rich https://mikuhatsune.hatenadiary.com/entry/20130217/1360920802 1.0 100%