<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<oembed>
  <author_name>satojkovic</author_name>
  <author_url>https://blog.hatena.ne.jp/satojkovic/</author_url>
  <blog_title>stMind</blog_title>
  <blog_url>https://stmind.hatenablog.com/</blog_url>
  <categories>
  </categories>
  <description>この論文では、事前学習済みの画像エンコーダーと大規模言語モデルを利用し、軽量なQuerying Transformer（Q-former）で視覚と言語のモダリティギャップを埋める、 汎用的で効率的な新しい事前学習戦略であるBLIP-2を提案しています。 BLIP-2は、既存手法より少ないパラメータで様々なVision LanguageタスクでState-of-the-artな性能を達成していて、例えばゼロショットVQAv2ではFlamingo80Bよりも54倍少ないパラメータで8.7%の性能改善を示しました。また、自然言語の指示に従ったゼロショットのimage-to-text 生成という、この…</description>
  <height>190</height>
  <html>&lt;iframe src=&quot;https://hatenablog-parts.com/embed?url=https%3A%2F%2Fstmind.hatenablog.com%2Fentry%2F2024%2F08%2F15%2F175141&quot; title=&quot;BLIP-2の論文メモとゼロショットのimage-to-text生成のお試し - stMind&quot; class=&quot;embed-card embed-blogcard&quot; scrolling=&quot;no&quot; frameborder=&quot;0&quot; style=&quot;display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;&quot;&gt;&lt;/iframe&gt;</html>
  <image_url>https://cdn-ak.f.st-hatena.com/images/fotolife/s/satojkovic/20240804/20240804150514.png</image_url>
  <provider_name>Hatena Blog</provider_name>
  <provider_url>https://hatena.blog</provider_url>
  <published>2024-08-15 17:51:41</published>
  <title>BLIP-2の論文メモとゼロショットのimage-to-text生成のお試し</title>
  <type>rich</type>
  <url>https://stmind.hatenablog.com/entry/2024/08/15/175141</url>
  <version>1.0</version>
  <width>100%</width>
</oembed>
