Solrの類似度アルゴリズム (TF*IDF, BM25)

ohke https://blog.hatena.ne.jp/ohke/ け日記 https://ohke.hateblo.jp/ Solr IR 引き続きSolrに触れていきます。今回はSolrの検索で使われる類似度 (similarity) についてです。前提 Solrのダウンロードとkenikkiコレクションの追加まで完了している状態を前提として進めます。 ohke.hateblo.jp ohke.hateblo.jp 類似度 SolrのコアエンジンであるLuceneは、text項目の検索において、ドキュメントがクエリとどの程度マッチしているかの度合い (類似度) を計算し、この類似度が高いドキュメントの順番で結果を返すようになっています。この類似度の計算はクエリとドキュメントの特徴ベクトルの内積によって行われますが、このベク… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fohke.hateblo.jp%2Fentry%2F2018%2F12%2F15%2F230000" title="Solrの類似度アルゴリズム (TF*IDF, BM25) - け日記" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://images-fe.ssl-images-amazon.com/images/I/51Es%2BgviRlL._SL160_.jpg Hatena Blog https://hatena.blog 2018-12-15 23:00:00 Solrの類似度アルゴリズム (TF*IDF, BM25) rich https://ohke.hateblo.jp/entry/2018/12/15/230000 1.0 100%