scikit-learnのStandardScalerで疎行列型のまま標準化する

hayataka2049 https://blog.hatena.ne.jp/hayataka2049/ 静かなる名辞 https://hayataka2049.hatenablog.jp/ python scipy 機械学習 Tips ことのあらましデータの標準化は機械学習の前処理としてとても重要です。そして疎行列型データ構造は、スパースなデータを表現するためにはとても適しています。残念ながら、普通に疎行列型を標準化しようとすると、疎行列性が失せます。考えてみればわかるのですが、普通の標準化では平均0にしてしまいます。たとえば非負の疎行列だとすると、大半を占める0のデータはたぶん負値になることでしょう。そしてスパース性は維持できません。 scikit-learnの素敵な対策ま、この辺は当然考えられていて、なんと超親切なメッセージが出ます。 from scipy.sparse import csr_matrix from… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fhayataka2049.hatenablog.jp%2Fentry%2F2020%2F02%2F08%2F073241" title="scikit-learnのStandardScalerで疎行列型のまま標準化する - 静かなる名辞" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2020-02-08 07:32:41 scikit-learnのStandardScalerで疎行列型のまま標準化する rich https://hayataka2049.hatenablog.jp/entry/2020/02/08/073241 1.0 100%