URLに対するハッシュ関数考察

nobu-q https://blog.hatena.ne.jp/nobu-q/ nobu-qの日記 https://nobu-q.hatenadiary.org/ study 現在電車中。64bitのハッシュ関数を使うと、どれも似たような結果になった。106億個URLがあると、大体全体の0.4%が衝突する。ちなみに、64bitの乱数を100億回生成しても大体6個しか衝突しない。シミュレート値と理論値が一致したので間違いないと思う。ハッシュ値衝突しすぎ。しかし、今回は0〜255の値を取るバイト列を入力として受け取ることを想定しているハッシュ関数を使ったので、文句は言えないかもしれない。URLみたいに偏ったデータを与えたらハッシュ値が偏っちゃうこともあるかもしれんし。一見乱数と同じような分布にはなってたんだけど、分散を調べたりして考察を加える事は時間不足でできなかった。… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fnobu-q.hatenadiary.org%2Fentry%2F20080729%2F1217345634" title=" URLに対するハッシュ関数考察 - nobu-qの日記" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2008-07-29 00:33:54 URLに対するハッシュ関数考察 rich https://nobu-q.hatenadiary.org/entry/20080729/1217345634 1.0 100%