文節区切り

ny23 https://blog.hatena.ne.jp/ny23/ ny23の日記 https://ny23.hatenadiary.org/ 研究実装をサボって既存の CRF ライブラリを使って文節区切りしていたのだけど，ラベル数2の割に，かなり素性を絞っても（発火素性12）デコードが形態素解析 (mecab) の5倍も遅いので，分類器で決定的に文節区切りを判定するモデルを実装してみた．素性の管理／学習／分類には手元のライブラリを利用して，C++ で180行ほど．直前の単語と区切り判定対象の単語の素性（表層，品詞，品詞細分類，活用）の二次以下の全組み合わせ (発火素性36) を考慮した場合，同じ素性を使った CRF より，精度は僅かに高く (99.659% v.s. 99.648%)，デコード速度は8倍 orz (0.22s v.s.… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fny23.hatenadiary.org%2Fentry%2F20100227%2Fp1" title=" 文節区切り - ny23の日記" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2010-02-27 00:00:00 文節区切り rich https://ny23.hatenadiary.org/entry/20100227/p1 1.0 100%