データセットの綴りミスは必ず直すべきか？

upura https://blog.hatena.ne.jp/upura/ u++の備忘録 https://upura.hatenablog.com/ Kaggle 前回書いた記事では、綴りミスなどの修正に用いる辞書を手動で構築する方法を紹介しました。upura.hatenablog.com本記事では、Petfinderコンペを題材に「データセットの綴りミスは必ず直すべきか？」という問いについて考えたいと思います。自分なりの回答綴りミスなどもデータの特徴の一つ課題設定によっては、敢えて修正しない選択肢もあり得る「修正度合い」という特徴量作成や同一ユーザの特定などに活用する方法もありそう概説綴りミスの修正は、データセット全体の完成度を高め、より良い機械学習モデルの構築に繋がる可能性があります。ただし、綴りミスなどもデータが持つ大切な特徴の一つであ… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fupura.hatenablog.com%2Fentry%2F2019%2F06%2F26%2F220000" title="データセットの綴りミスは必ず直すべきか？ - u++の備忘録" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/u/upura/20190626/20190626162828.png Hatena Blog https://hatena.blog 2019-06-26 22:00:00 データセットの綴りミスは必ず直すべきか？ rich https://upura.hatenablog.com/entry/2019/06/26/220000 1.0 100%