ruby タグで表記と読みのペアを抽出（できるかも）

s-yata https://blog.hatena.ne.jp/s-yata/ やた＠はてな日記 https://s-yata.hatenadiary.org/ HTML のルビ振り用タグ（<ruby>）は表記と読みのペアを抽出するのに使えそうな気がしたので，約 1000 万ページからルビを取り出してみました．ルビを使っているページ自体が少ないので，抽出できたルビはノイズや重複込みで約 800 万件，重複を除くと約 80 万件でした．ルビの例を以下に示します．左側が元の文字列で，右側がルビです．文字化もじか文字化もじば文字化モジカ文字化モジバ文字塔もじとう文字塔二基もじとうにき文字太夫もじだゆう文字弁道もんじべんどう文字式もじしき文字手摺昔人形もじてずりむかしにんぎやう文字打ち労務シナリオ文字揃もじそろ … 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fs-yata.hatenadiary.org%2Fentry%2F20100704%2F1278254768" title="ruby タグで表記と読みのペアを抽出（できるかも） - やた＠はてな日記" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2010-07-04 23:46:08 ruby タグで表記と読みのペアを抽出（できるかも） rich https://s-yata.hatenadiary.org/entry/20100704/1278254768 1.0 100%