Lossy Countingを実装してみた - 省メモリな頻度計測

sucrose https://blog.hatena.ne.jp/sucrose/ 唯物是真 @Scaled_Wurm https://sucrose.hatenablog.com/ python 自然言語処理大規模データで頻度を数えると、欲しいのはよく登場するアイテムの情報なのに、ほとんど出現しないアイテムの種類数が非常に多くて、それらがメモリを大量に必要としてしまうという問題があるこれに対してアイテムの種類数の最大値に制限を加えたり、頻度に誤差を許すなどの条件のもとで、省メモリに頻度計測を行う方法がいくつも提案されているこれらについては以下の記事が詳しい大規模データで単語の数を数える - ny23の日記今回はそういった手法の一つであるLossy Countingを実装した日本語では上記の記事と以下の記事が詳しい [を] 誤り許容カウント法(lossy count method)のサンプル… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fsucrose.hatenablog.com%2Fentry%2F2013%2F07%2F28%2F000037" title="Lossy Countingを実装してみた - 省メモリな頻度計測 - 唯物是真 @Scaled_Wurm" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> http://cdn-ak.f.st-hatena.com/images/fotolife/s/sucrose/20130727/20130727210348.png Hatena Blog https://hatena.blog 2013-07-28 00:00:37 Lossy Countingを実装してみた - 省メモリな頻度計測 rich https://sucrose.hatenablog.com/entry/2013/07/28/000037 1.0 100%