画像を理解するGPT-4 Visionで、既存の画像認識モデルを説明可能にする ~ 新宿の特徴は"ビル群"だが、日本橋の特徴は"密集したビル"? ~

Hi_king https://blog.hatena.ne.jp/Hi_king/ エムスリーテックブログ https://www.m3tech.blog/ 機械学習特化型モデルで識別・ピクセル重要度抽出した後に、GPTで自然言語に変換する画像認識モデルを作ったら、そのモデル自体から"こういうオブジェクトがあるから私はこう認識したんだよ"と教えてほしくありませんか？今回作るのは、図のように、写真が東京都中央区で撮られているとわかるのは、"照明と配管"が特徴的で、"箱やパッケージが多い"から市場らしさがあるんだよ、と自分で説明してくれるAIです。背景ですが、機械学習が、それを本業とする人以外にも幅広く使われるようになってくるのに伴い、モデルの説明可能性も重要視されているように思います。テーブルデータからの識別問題であれば重要な項目を特徴重要度などから… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fwww.m3tech.blog%2Fentry%2Fphoto2geo_gpt4" title="画像を理解するGPT-4 Visionで、既存の画像認識モデルを説明可能にする ~ 新宿の特徴は"ビル群"だが、日本橋の特徴は"密集したビル"? ~ - エムスリーテックブログ" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/m/m3tech/20231204/20231204104941.png Hatena Blog https://hatena.blog 2023-12-04 14:00:00 画像を理解するGPT-4 Visionで、既存の画像認識モデルを説明可能にする ~ 新宿の特徴は"ビル群"だが、日本橋の特徴は"密集したビル"? ~ rich https://www.m3tech.blog/entry/photo2geo_gpt4 1.0 100%