Isolation forest を用いた外れ値検出と、UMAP による次元削減の活用

smx_matsuno https://blog.hatena.ne.jp/smx_matsuno/ skymatix Developers Blog https://smx.hatenadiary.jp/ AI リサーチャーの松野です。教師ラベルがない状況を想定して外れ値検出を試みる機会があったので、試したことをご紹介したいと思います。対象としたサンプルデータについて詳細は述べませんが、十数次元のテーブルデータで、とあるラベル付けがされています。このラベルによって抽出される2つのグループ A, B についてそれぞれ同一の外れ値検出を試みます。データ件数は、グループAは約1万件、グループBは約4千件でした。 Isolation forest を用いた外れ値検出まずは素直に、scikit-learn に実装されている isolation forest を適用してみます。今回は正解データが… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fsmx.hatenadiary.jp%2Fentry%2F2023%2F06%2F30%2F120805" title="Isolation forest を用いた外れ値検出と、UMAP による次元削減の活用 - skymatix Developers Blog" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/s/smx_matsuno/20230623/20230623154808.png Hatena Blog https://hatena.blog 2023-06-30 12:08:05 Isolation forest を用いた外れ値検出と、UMAP による次元削減の活用 rich https://smx.hatenadiary.jp/entry/2023/06/30/120805 1.0 100%