<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<oembed>
  <author_name>cakkby6</author_name>
  <author_url>https://blog.hatena.ne.jp/cakkby6/</author_url>
  <blog_title>何だって、したしむ</blog_title>
  <blog_url>https://cake-by-the-river.hatenablog.jp/</blog_url>
  <categories>
    <anon>深層学習</anon>
  </categories>
  <description>前回cake-by-the-river.hatenablog.jp 今回は、前回紹介したTransformerの自然言語処理能力を画像処理の方面に応用した Vision Transformer (ViT) や、Contrastive Language-Image Pre-training (CLIP) について紹介していきます。 ViT 元論文： arxiv.orgVision Transformer (ViT) は Google が 2020 年に発表したモデルです。自然言語処理の界隈は、BERT (Devlin et al., 2018) など Transformer ベースのモデルが用い…</description>
  <height>190</height>
  <html>&lt;iframe src=&quot;https://hatenablog-parts.com/embed?url=https%3A%2F%2Fcake-by-the-river.hatenablog.jp%2Fentry%2Fstable_diffusion_4&quot; title=&quot;もし生物情報科学専攻の学部生が &amp;quot;StableDiffusion&amp;quot; を理解しようとしたら 4 ~ViT &amp;amp; CLIP~ - 何だって、したしむ&quot; class=&quot;embed-card embed-blogcard&quot; scrolling=&quot;no&quot; frameborder=&quot;0&quot; style=&quot;display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;&quot;&gt;&lt;/iframe&gt;</html>
  <image_url>https://cdn-ak.f.st-hatena.com/images/fotolife/c/cakkby6/20221117/20221117121714.png</image_url>
  <provider_name>Hatena Blog</provider_name>
  <provider_url>https://hatena.blog</provider_url>
  <published>2022-11-17 22:15:10</published>
  <title>もし生物情報科学専攻の学部生が &quot;StableDiffusion&quot; を理解しようとしたら 4 ~ViT &amp; CLIP~</title>
  <type>rich</type>
  <url>https://cake-by-the-river.hatenablog.jp/entry/stable_diffusion_4</url>
  <version>1.0</version>
  <width>100%</width>
</oembed>
