もし生物情報科学専攻の学部生が "StableDiffusion" を理解しようとしたら 4 ~ViT & CLIP~

cakkby6 https://blog.hatena.ne.jp/cakkby6/ 何だって、したしむ https://cake-by-the-river.hatenablog.jp/ 深層学習前回cake-by-the-river.hatenablog.jp 今回は、前回紹介したTransformerの自然言語処理能力を画像処理の方面に応用した Vision Transformer (ViT) や、Contrastive Language-Image Pre-training (CLIP) について紹介していきます。 ViT 元論文： arxiv.orgVision Transformer (ViT) は Google が 2020 年に発表したモデルです。自然言語処理の界隈は、BERT (Devlin et al., 2018) など Transformer ベースのモデルが用い… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fcake-by-the-river.hatenablog.jp%2Fentry%2Fstable_diffusion_4" title="もし生物情報科学専攻の学部生が "StableDiffusion" を理解しようとしたら 4 ~ViT & CLIP~ - 何だって、したしむ" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/c/cakkby6/20221117/20221117121714.png Hatena Blog https://hatena.blog 2022-11-17 22:15:10 もし生物情報科学専攻の学部生が "StableDiffusion" を理解しようとしたら 4 ~ViT & CLIP~ rich https://cake-by-the-river.hatenablog.jp/entry/stable_diffusion_4 1.0 100%