相互情報量(mutual information)についてのメモ

rin1024 https://blog.hatena.ne.jp/rin1024/ uncertain world https://rin1024.hatenadiary.org/ MySQL 推薦の勉強の一環のメモです。相互情報量とは、単語Aが出たら単語Bも文書Xに出るという情報量の計算に使えそうな理論。これをクラスタリングする際の指標に使えないかと模索中です。数式は下記の通り。数Aとか数Bが超苦手だったので、解釈があっているのかアレなのですが、この式をこんな風に解釈できるんじゃないかと考えてみました。 (正しい数式じゃないのでご注意ください) 相互情報量 = log( (全文書に出現した単語の総数 * 単語Aと単語Bの共起頻度) / (単語Aの出現頻度 * 単語Bの出現頻度) ) 多分色々間違ってるような気もするけど。で、作ったのが以下のSQL。 insert i… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Frin1024.hatenadiary.org%2Fentry%2F20091109%2F1257745590" title="相互情報量(mutual information)についてのメモ - uncertain world" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> http://upload.wikimedia.org/math/5/1/1/511ea3d5e0ccf0c15376c0935e23d5b1.png Hatena Blog https://hatena.blog 2009-11-09 14:46:30 相互情報量(mutual information)についてのメモ rich https://rin1024.hatenadiary.org/entry/20091109/1257745590 1.0 100%