Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる！

yamitzky https://blog.hatena.ne.jp/yamitzky/ 病みつきエンジニアブログ https://yamitzky.hatenablog.com/ 今まで何度もスクレイピングとかクローリングをしてきたので、マエショリストの端くれとしてコツを公開すべきかなあ、と思い、公開します。今日の題材は、CNET Newsです。私はウェブ文書にタグ付けをするという研究をしているのですが、そのための教師データとしてクローリングをします。 photo by Sean MacEntee 要件定義 CNET Newsから全ニュースを保存し、その本文をデータベースに保存します。これは、次のようなフローに書き下すことができます。全URLを取得し、データベースに保存データベースにある全URLをダウンロードする保存した全ページを解析して、本文をデータベースに保… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fyamitzky.hatenablog.com%2Fentry%2F2013%2F12%2F31%2F034821" title="Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる！ - 病みつきエンジニアブログ" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> http://farm5.staticflickr.com/4009/4478876573_f66035d307.jpg Hatena Blog https://hatena.blog 2013-12-31 03:48:21 Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる！ rich https://yamitzky.hatenablog.com/entry/2013/12/31/034821 1.0 100%