二つの文字列の類似度

ktr_skmt https://blog.hatena.ne.jp/ktr_skmt/ ktr_skmtの日記 https://ktr-skmt.hatenadiary.org/ 雑な備忘録なので、サーベイの前準備程度にお使いください。二つの文字列の類似度を測る方法についてまとめる。なお、値が高いほど類似度が高いものには青色、値が高いほど類似度が低いものには赤色で色付けた。なお、意味レベルまで考慮して単文あるいは複文同士の類似性を測る技術を一般関係認識や含意関係認識といいます。そこについては書いていませんが、乾健太郎先生の資料が大変参考になりそうです。大規模言語資源時代の意味談話処理また、原田実先生が開発された意味解析システムSAGEも日本語文の類似性を測る技術です。文字について、 Shift-JISはダメ文字(2nd octetが5c=backslash)を含ん… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fktr-skmt.hatenadiary.org%2Fentry%2F20111214%2F1323835913" title="二つの文字列の類似度 - ktr_skmtの日記" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2011-12-14 13:11:53 二つの文字列の類似度 rich https://ktr-skmt.hatenadiary.org/entry/20111214/1323835913 1.0 100%