Unicodeの拡張領域の文字を一文字とカウントする

yuimat https://blog.hatena.ne.jp/yuimat/ Scala日記 https://ym.hatenadiary.jp/ Scala ScalaやJavaは拡張領域の文字をサロゲートペアで表すので、文字数をカウントしたいときに単純に文字列のサイズを取ると実際の文字数とずれてしまう。Java 1.5からはUnicodeのコードポイントを数えるメソッドが追加されているので、これを使えば正確に文字数をカウントできる。以下、地球の絵文字を例に取って説明。 scala> val earth = "\uD83C\uDF0D" earth: String = 🌍 scala> println(earth, earth.length) (🌍,2) scala> earth.codePointCount(0, earth.length) … 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fym.hatenadiary.jp%2Fentry%2F2015%2F07%2F08%2F175023" title="Unicodeの拡張領域の文字を一文字とカウントする - Scala日記" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2015-07-08 17:50:23 Unicodeの拡張領域の文字を一文字とカウントする rich https://ym.hatenadiary.jp/entry/2015/07/08/175023 1.0 100%