「PPM*言語モデルを用いた単語分割」再考

mtbr https://blog.hatena.ne.jp/mtbr/ mtbrの日記 https://mtbr.hatenadiary.org/ segmentation [2005-09-13-2]のときは、あくまで教師あり学習での分割と考えていたが、データ構造などは利用できるかも。「PPM*」の方法は、単語分割を「文字列→区切り列」のラベルづけ問題として解いている。文字単位 3-gram モデルを用いた例がまず述べられ、次に言語モデルをPPM*に変えた本論となっている。PPM* では、文脈に対する文字の出現確率が基本的にすべての文脈に対して格納されており、確率計算のときには文脈長を動的に選択する。[2005-09-13-2] そのときに使う「文脈トライ」は、コーパスに対する（広義の）接尾辞木であり、枝の圧縮はないが、葉ノードのラベルが必ず接尾辞で… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fmtbr.hatenadiary.org%2Fentry%2F20051113%2FsegmentationPPM" title=" 「PPM*言語モデルを用いた単語分割」再考 - mtbrの日記" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2005-11-13 00:00:00 「PPM*言語モデルを用いた単語分割」再考 rich https://mtbr.hatenadiary.org/entry/20051113/segmentationPPM 1.0 100%