フルスクラッチ VLM “Viola” の歩み

anieca1101 https://blog.hatena.ne.jp/anieca1101/ Sansan Tech Blog https://buildersbox.corp-sansan.com/ AI R&D 機械学習画像認識ナラティブはじめにこんにちは、研究開発部の石井です。この記事では、弊社が文書画像からの高精度な情報抽出を目指し、フルスクラッチで開発した視覚言語モデル（Vision Language Model） “Viola” の歩みを共有します。開発に至った背景から、技術選定の試行錯誤、実用化までに直面した技術・ビジネス両面の課題とそれを乗り越えたプロセス、現在の成果と今後の展望までをお伝えします。 VLM をビジネス課題に適用しようとしている方々にとって、何らかのヒントとなれば幸いです。 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fbuildersbox.corp-sansan.com%2Fentry%2F2025%2F04%2F25%2F112500" title="フルスクラッチ VLM “Viola” の歩み - Sansan Tech Blog" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2025-04-25 11:25:00 フルスクラッチ VLM “Viola” の歩み rich https://buildersbox.corp-sansan.com/entry/2025/04/25/112500 1.0 100%