<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<oembed>
  <author_name>dcm_fujihira</author_name>
  <author_url>https://blog.hatena.ne.jp/dcm_fujihira/</author_url>
  <blog_title>ENGINEERING BLOG ドコモ開発者ブログ</blog_title>
  <blog_url>https://nttdocomo-developers.jp/</blog_url>
  <categories>
    <anon>生成AI</anon>
    <anon>アドベントカレンダー2024</anon>
  </categories>
  <description>TL;DR Document Intelligenceを使ってPDFをテキストと画像に分離した。 テキストと画像を別々のデータとして扱わず、画像のリンクをテキストに組み込んでPDFの文脈を維持するようにした。 テキストと画像を用いた簡単なRAGを作成した。 自己紹介 NTTドコモ データプラットフォーム部（以下DP部）藤平です。 NTTドコモでは様々なサービスで機械学習やLLMを取り入れることでサービス価値の向上を目指しています。 データプラットフォーム部（以下DP部）ではこうした技術の適用を含め、全社におけるデータ活用をミッションとしています。 今回執筆いただいた協働者の鶴薗さんとは、DP部…</description>
  <height>190</height>
  <html>&lt;iframe src=&quot;https://hatenablog-parts.com/embed?url=https%3A%2F%2Fnttdocomo-developers.jp%2Fentry%2F2024%2F12%2F24%2F090000_2&quot; title=&quot;Document Intelligenceを活用したPDFのRAGスターターセット - ENGINEERING BLOG ドコモ開発者ブログ&quot; class=&quot;embed-card embed-blogcard&quot; scrolling=&quot;no&quot; frameborder=&quot;0&quot; style=&quot;display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;&quot;&gt;&lt;/iframe&gt;</html>
  <image_url>https://cdn-ak.f.st-hatena.com/images/fotolife/d/dcm_fujihira/20241217/20241217083745.png</image_url>
  <provider_name>Hatena Blog</provider_name>
  <provider_url>https://hatena.blog</provider_url>
  <published>2024-12-24 09:00:00</published>
  <title>Document Intelligenceを活用したPDFのRAGスターターセット</title>
  <type>rich</type>
  <url>https://nttdocomo-developers.jp/entry/2024/12/24/090000_2</url>
  <version>1.0</version>
  <width>100%</width>
</oembed>
