<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<oembed>
  <author_name>rin1024</author_name>
  <author_url>https://blog.hatena.ne.jp/rin1024/</author_url>
  <blog_title>uncertain world</blog_title>
  <blog_url>https://rin1024.hatenadiary.org/</blog_url>
  <categories>
    <anon>MySQL</anon>
  </categories>
  <description>推薦の勉強の一環のメモです。 相互情報量とは、単語Aが出たら単語Bも文書Xに出るという 情報量の計算に使えそうな理論。 これをクラスタリングする際の指標に使えないかと模索中です。 数式は下記の通り。 数Aとか数Bが超苦手だったので、 解釈があっているのかアレなのですが、 この式をこんな風に解釈できるんじゃないかと考えてみました。 (正しい数式じゃないのでご注意ください) 相互情報量 = log( (全文書に出現した単語の総数 * 単語Aと単語Bの共起頻度) / (単語Aの出現頻度 * 単語Bの出現頻度) ) 多分色々間違ってるような気もするけど。 で、作ったのが以下のSQL。 insert i…</description>
  <height>190</height>
  <html>&lt;iframe src=&quot;https://hatenablog-parts.com/embed?url=https%3A%2F%2Frin1024.hatenadiary.org%2Fentry%2F20091109%2F1257745590&quot; title=&quot;相互情報量(mutual information)についてのメモ - uncertain world&quot; class=&quot;embed-card embed-blogcard&quot; scrolling=&quot;no&quot; frameborder=&quot;0&quot; style=&quot;display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;&quot;&gt;&lt;/iframe&gt;</html>
  <image_url>http://upload.wikimedia.org/math/5/1/1/511ea3d5e0ccf0c15376c0935e23d5b1.png</image_url>
  <provider_name>Hatena Blog</provider_name>
  <provider_url>https://hatena.blog</provider_url>
  <published>2009-11-09 14:46:30</published>
  <title>相互情報量(mutual information)についてのメモ</title>
  <type>rich</type>
  <url>https://rin1024.hatenadiary.org/entry/20091109/1257745590</url>
  <version>1.0</version>
  <width>100%</width>
</oembed>
