Document Intelligenceを活用したPDFのRAGスターターセット

dcm_fujihira https://blog.hatena.ne.jp/dcm_fujihira/ ENGINEERING BLOG ドコモ開発者ブログ https://nttdocomo-developers.jp/ 生成AI アドベントカレンダー2024 TL;DR Document Intelligenceを使ってPDFをテキストと画像に分離した。テキストと画像を別々のデータとして扱わず、画像のリンクをテキストに組み込んでPDFの文脈を維持するようにした。テキストと画像を用いた簡単なRAGを作成した。自己紹介 NTTドコモデータプラットフォーム部（以下DP部）藤平です。 NTTドコモでは様々なサービスで機械学習やLLMを取り入れることでサービス価値の向上を目指しています。データプラットフォーム部（以下DP部）ではこうした技術の適用を含め、全社におけるデータ活用をミッションとしています。今回執筆いただいた協働者の鶴薗さんとは、DP部… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fnttdocomo-developers.jp%2Fentry%2F2024%2F12%2F24%2F090000_2" title="Document Intelligenceを活用したPDFのRAGスターターセット - ENGINEERING BLOG ドコモ開発者ブログ" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/d/dcm_fujihira/20241217/20241217083745.png Hatena Blog https://hatena.blog 2024-12-24 09:00:00 Document Intelligenceを活用したPDFのRAGスターターセット rich https://nttdocomo-developers.jp/entry/2024/12/24/090000_2 1.0 100%