LLMのためにHTMLの構造解析を頑張ってみた

shoki5090 https://blog.hatena.ne.jp/shoki5090/ ABEJA Tech Blog https://tech-blog.abeja.asia/ ABEJAアドベントカレンダー2024 こんにちは！ABEJAのシステム開発部でエンジニアをしている胡です。こちらはABEJA アドベントカレンダー 2024 、7日目の記事です。この記事では、ウェブサイトから本文をきれいに抽出する方法を色々試してみた話をまとめています。きっかけは、RAG（Retrieval-Augmented Generation）やLLM（大規模言語モデル）で利用するデータを効率よく取り出せないかと思ったことでした。もしサイトの内容が一つの原稿やデータとしてまとまっていれば、そのままLLMに渡すだけで使えますよね。でも、同じ会社内でも、複数のチームや部門がそれぞれ記事を作成していると、データを一箇所にまとめ… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Ftech-blog.abeja.asia%2Fentry%2Fadvent-2024-day07" title="LLMのためにHTMLの構造解析を頑張ってみた - ABEJA Tech Blog" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/s/shoki5090/20241206/20241206131532.jpg Hatena Blog https://hatena.blog 2024-12-07 09:30:00 LLMのためにHTMLの構造解析を頑張ってみた rich https://tech-blog.abeja.asia/entry/advent-2024-day07 1.0 100%