プログラマのための文字コード技術入門第7章「プログラミング言語と文字コード」その3

morning_reading https://blog.hatena.ne.jp/morning_reading/ 毎朝30分読書会 https://morning-reading.hatenadiary.org/ 今日から第7章の続き、Java での文字列のソートと文字分割についてです何も考えなければ Unicode 基準でのソートになる。英数字ひらがなカタカナくらいはともかく漢字は読み基準というわけではない微妙な結果になる Collator というのを使って言語毎に自然な(アクセント記号つき文字の位置とか)ソートをさせる仕組みがある文字は char 毎に分割するとサロゲートペアや結合文字が分割されてしまって化ける BreakIterator というクラスを使って正しい文字区切り位置で分割できる仕組みがある。外部イテレーターとして使う Java についてはこれで終わり。明日からは Ruby 1.8 … 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fmorning-reading.hatenadiary.org%2Fentry%2F20100924%2Fp1" title="プログラマのための文字コード技術入門第7章「プログラミング言語と文字コード」その3 - 毎朝30分読書会" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2010-09-24 00:00:00 プログラマのための文字コード技術入門第7章「プログラミング言語と文字コード」その3 rich https://morning-reading.hatenadiary.org/entry/20100924/p1 1.0 100%