BLIP-2の論文メモとゼロショットのimage-to-text生成のお試し

satojkovic https://blog.hatena.ne.jp/satojkovic/ stMind https://stmind.hatenablog.com/ この論文では、事前学習済みの画像エンコーダーと大規模言語モデルを利用し、軽量なQuerying Transformer（Q-former）で視覚と言語のモダリティギャップを埋める、汎用的で効率的な新しい事前学習戦略であるBLIP-2を提案しています。 BLIP-2は、既存手法より少ないパラメータで様々なVision LanguageタスクでState-of-the-artな性能を達成していて、例えばゼロショットVQAv2ではFlamingo80Bよりも54倍少ないパラメータで8.7%の性能改善を示しました。また、自然言語の指示に従ったゼロショットのimage-to-text 生成という、この… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fstmind.hatenablog.com%2Fentry%2F2024%2F08%2F15%2F175141" title="BLIP-2の論文メモとゼロショットのimage-to-text生成のお試し - stMind" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/s/satojkovic/20240804/20240804150514.png Hatena Blog https://hatena.blog 2024-08-15 17:51:41 BLIP-2の論文メモとゼロショットのimage-to-text生成のお試し rich https://stmind.hatenablog.com/entry/2024/08/15/175141 1.0 100%