ファイルの重複行検知

Hossy https://blog.hatena.ne.jp/Hossy/ ほっしーの技術ネタ備忘録 https://hoshizuki.hateblo.jp/ UNIX シェルでテキストファイルをばばーっと処理してる時に、データ数となりがちな行数を数えるコマンドは良く知られてると思います。 $ wc -l file.txt さて、これで表示されるのはあくまで行数なので、データ数がこれより多いことはあり得ませんが、少ない可能性はあります。そう、データが重複しているケースです。そこで必要になるのが重複行のチェック。ここで以下のコマンド。 $ cat file.txt | sort | uniq -c | grep -v "^ 1 " | wc -l 0 一旦ソートしてから uniq -c で同一の行の数を数えます。そして、1 行しかない＝重複がな… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fhoshizuki.hateblo.jp%2Fentry%2F2022%2F12%2F20%2F044905" title="ファイルの重複行検知 - ほっしーの技術ネタ備忘録" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2022-12-20 04:49:05 ファイルの重複行検知 rich https://hoshizuki.hateblo.jp/entry/2022/12/20/044905 1.0 100%