こぶつば楽曲の歌詞をテキスト分類したい①～分析データの整形と確認～

anemptyarchive https://blog.hatena.ne.jp/anemptyarchive/ からっぽのしょこ https://www.anarchive-beta.com/ 自然言語処理(未分類) 自然言語処理-やってみた R H!P 〇はじめに以前の記事でデータの加工をほとんどせずにテキスト分類を行ったところ、結果はお察しでした(一応この記事とこれです)。あれからひと月が経ち多少知識も増えたので再挑戦しました。いくつかの記事に分けて、データ整形、特徴語の選択、クラスタリング、カテゴライズ、ランダムフォレスト等々をしていきます。最初はテキストデータの整形と確認です。歌詞をそのまま比較することは難しいので、始めにMeCabを使って形態素解析を行います。今回は文字レベルと単語(形態素)レベルに切り分けました。次に、各文字・単語がどれだけ文書中に出現するのかを調べます。実際に使われている数を観測頻度といい、文書間で比較しや… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fwww.anarchive-beta.com%2Fentry%2F2019%2F01%2F10%2F121434" title="こぶつば楽曲の歌詞をテキスト分類したい①～分析データの整形と確認～ - からっぽのしょこ" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/a/anemptyarchive/20190202/20190202013919.png Hatena Blog https://hatena.blog 2019-01-10 12:14:34 こぶつば楽曲の歌詞をテキスト分類したい①～分析データの整形と確認～ rich https://www.anarchive-beta.com/entry/2019/01/10/121434 1.0 100%