LLM推論ベースのツリーインデックスRAG「PageIndex」でPDF/Markdownから階層構造を抽出する

ayousanz https://blog.hatena.ne.jp/ayousanz/ yousanのメモ https://ayousanz.hatenadiary.jp/ AI 初めに開発環境環境構築 PDFの処理 Markdownの処理主なオプション初めに github.com PageIndexは、ベクトルDBやチャンキングを使わず、LLMの推論によって階層ツリーインデックスを構築するRAGシステムです。PDF/Markdownから目次のようなツリー構造を自動生成し、ツリー検索で関連ページを特定します。従来のRAGはベクトル類似度検索に依存しますが、「類似度≠関連度」という問題があります。PageIndexはLLMの推論能力を活用し、人間の専門家がドキュメントをナビゲートするように関連箇所を特定します。 PageIndexの処理は大きく2ステップに分かれ… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fayousanz.hatenadiary.jp%2Fentry%2F2026%2F01%2F31%2F161025" title="LLM推論ベースのツリーインデックスRAG「PageIndex」でPDF/Markdownから階層構造を抽出する - yousanのメモ" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2026-01-31 16:10:25 LLM推論ベースのツリーインデックスRAG「PageIndex」でPDF/Markdownから階層構造を抽出する rich https://ayousanz.hatenadiary.jp/entry/2026/01/31/161025 1.0 100%