エンコード判定機

u-no https://blog.hatena.ne.jp/u-no/ unnonouno https://u-no.hatenadiary.org/ NLP IS 飲み会の話題にて。なんか、文字エンコード判定がしょぼくてどうこうというはなし。世の中のエンコード判定がどうなってるのか知らないけど、ルールベースでそのエンコードの範囲からはずれたら false とかしてるのかな。でも、やっぱりそこは、入力文字列: 、エンコード: に対して、なんてな方法で。N-gram 使って、データが長ければ適当にサンプリングすれば OK。ということで、byte bigram、（いいかげん）でそこら辺に落ちてた IRC のログをつかって学習。ひらがなはけっこう簡単に判別できる。出現頻度の低い文字列がダメで、「魑魅魍魎」を判定できなかった。ごちゃごちゃいじったが、結局 byt… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fu-no.hatenadiary.org%2Fentry%2F20061122%2F1164223872" title="エンコード判定機 - unnonouno" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2006-11-22 04:31:12 エンコード判定機 rich https://u-no.hatenadiary.org/entry/20061122/1164223872 1.0 100%