【python】TF-IDFで重要語を抽出してみる

hayataka2049 https://blog.hatena.ne.jp/hayataka2049/ 静かなる名辞 https://hayataka2049.hatenablog.jp/ python 自然言語処理 sklearn numpy 20newsgroups TfidfVectorizer 特徴抽出 tf-idf 機械学習 CountVectorizer 概要すでに語り尽くされた感のあるネタですが、TF-IDFで文書の重要な単語（重要語、あるいは特徴語）を抽出してみます。 numpyとsklearnを使うと、10行程度のコードで実現できるので簡単です。スポンサーリンクコードの書き方とりあえず、対象データとしては20newsgroupsを使います。関数一つで読み込めて便利だからです。 sklearn.datasets.fetch_20newsgroups — scikit-learn 0.20.1 documentation 自然言語処理の技術紹介などの記事で、Webスクレイピングなどをしてデータを作っているケースをよく見かけますが、こちら… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fhayataka2049.hatenablog.jp%2Fentry%2F2018%2F07%2F09%2F190819" title="【python】TF-IDFで重要語を抽出してみる - 静かなる名辞" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2018-07-09 19:08:19 【python】TF-IDFで重要語を抽出してみる rich https://hayataka2049.hatenablog.jp/entry/2018/07/09/190819 1.0 100%