<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<oembed>
  <author_name>takuya-a</author_name>
  <author_url>https://blog.hatena.ne.jp/takuya-a/</author_url>
  <blog_title>stop-the-world</blog_title>
  <blog_url>https://stop-the-world.hatenablog.com/</blog_url>
  <categories>
  </categories>
  <description>前回は PageRank などのリンク解析手法について説明した。今回は、Web のクローリングを扱う。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の22日目の記事です。 adventar.org クローリングの概要 クローラの動作 クローリングの難しさ クローラの要件 クローラの MUST 要件 robots.txt robots.txt の例 クローラの SHOULD 要件 クローラのアーキテクチャ クローラの処理ステップ クローラの基本アーキテクチャ 分散型クローラ URL frontier Mercat…</description>
  <height>190</height>
  <html>&lt;iframe src=&quot;https://hatenablog-parts.com/embed?url=https%3A%2F%2Fstop-the-world.hatenablog.com%2Fentry%2Fcs276-information-retrieval-22&quot; title=&quot;Information Retrieval and Web Search まとめ(22): Webクローリング - stop-the-world&quot; class=&quot;embed-card embed-blogcard&quot; scrolling=&quot;no&quot; frameborder=&quot;0&quot; style=&quot;display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;&quot;&gt;&lt;/iframe&gt;</html>
  <image_url>https://cdn-ak.f.st-hatena.com/images/fotolife/t/takuya-a/20201223/20201223044312.png</image_url>
  <provider_name>Hatena Blog</provider_name>
  <provider_url>https://hatena.blog</provider_url>
  <published>2020-12-22 23:52:00</published>
  <title>Information Retrieval and Web Search まとめ(22): Webクローリング</title>
  <type>rich</type>
  <url>https://stop-the-world.hatenablog.com/entry/cs276-information-retrieval-22</url>
  <version>1.0</version>
  <width>100%</width>
</oembed>
