N-gram かな漢字変換(3)

takeda25 https://blog.hatena.ne.jp/takeda25/ アスペ日記 https://takeda25.hatenablog.jp/ アルゴリズムリポジトリを更新した。N-gram ID からスコアを取得するのに cdb を使っていたのをメモリマップトファイルに変えた。さらにスコアは 1バイトで持つようにした。 400MB ぐらいだったサイズが 20MB ぐらいになって、速度もだいぶ向上した。合計すると、辞書のサイズは 60MB ぐらい。まだそれなりに大きい。4-gram のかな漢字変換用辞書をあらかじめリポジトリに入れておくようにした。 marisa-trie モジュールさえ入れてあれば、 ./converter_sample.py --dicname-prefix=dics/bccwj4_rev_dic --order=4 -… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Ftakeda25.hatenablog.jp%2Fentry%2F20110723%2F1311400295" title="N-gram かな漢字変換(3) - アスペ日記" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2011-07-23 14:51:35 N-gram かな漢字変換(3) rich https://takeda25.hatenablog.jp/entry/20110723/1311400295 1.0 100%