Webページを自動収集、解析する仕組みを作るー１日目

j74th https://blog.hatena.ne.jp/j74th/ @74thの制作ログ https://74th.hateblo.jp/ Webページから定期的に情報を収集し、それをDBに溜めて、解析していみたいという要求が出てきた。しかし、wgetとかでWebからHTMLダウンロードして、そのHTMLを解析するのは相当な苦労になりそうと思った。なので、なるべく自分がすでに持っているWebの能力で、まず収集すること実現できないか考えてみる。Webページを閲覧するなら、やはりGUIのWebブラウザを使うのが手っ取り早い。GUIのWebブラウザ上でよく使う手は、Grease Monkeyを書くことで、WebページをjavascriptでDOM操作して、データ抽出する方法だ。ただ、Grease Monkeyだけでは応用が難しいと思うの… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2F74th.hateblo.jp%2Fentry%2F2013%2F05%2F06%2F225333" title="Webページを自動収集、解析する仕組みを作るー１日目 - @74thの制作ログ" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2013-05-06 22:53:33 Webページを自動収集、解析する仕組みを作るー１日目 rich https://74th.hateblo.jp/entry/2013/05/06/225333 1.0 100%