【python】scikit-learnで大規模疎行列を扱うときのTips

hayataka2049 https://blog.hatena.ne.jp/hayataka2049/ 静かなる名辞 https://hayataka2049.hatenablog.jp/ python sklearn Tips 自然言語処理 20newsgroups 特徴抽出特徴選択次元削減機械学習はじめに自然言語処理などで大規模疎行列を扱うことがあります。一昔前はNLPといえばこれでした（最近は低次元密行列で表現することのほうが多いですが）。疎行列はその特性をうまく生かして扱うとパフォーマンス上のメリットが得られる反面、うかつにdenseな表現に展開してしまうと効率が悪くなって激遅になったり、あっさりメモリから溢れたりします。 scikit-learnでやる場合、うっかり使うと自動的にdenseな表現に展開されてしまう、という事故が起こりがちで、要するに使えるモデルに制約があり、注意が必要です。その辺の基本的なことをまとめておきます。目次はじめに疎行列ってなに？特徴抽出する… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fhayataka2049.hatenablog.jp%2Fentry%2F2019%2F08%2F14%2F023331" title="【python】scikit-learnで大規模疎行列を扱うときのTips - 静かなる名辞" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2019-08-14 02:33:31 【python】scikit-learnで大規模疎行列を扱うときのTips rich https://hayataka2049.hatenablog.jp/entry/2019/08/14/023331 1.0 100%