S2S APIでどこまで作れるのか？〜gpt-realtime 1.5 と System Prompt / Tool Callingだけで試した3つの音声アプリ

heroz-tkubo https://blog.hatena.ne.jp/heroz-tkubo/ HEROZ Tech Blog https://techblog.heroz.jp/ はじめに前回の記事では、S2S（Speech-to-Speech）APIを比較し、体験品質・知能性能・レイテンシといった観点から各モデルの違いを整理しました。またRAG編では、Tool Callingを含めた実務的な観点での選び方を扱いました。今回は少し方向を変えて、実際にどこまで「アプリケーションとして成立するのか」を試した内容を紹介します。 S2Sはここ1年で急速に進化していますが、「実際に業務として使えるのか」という点はまだ見えづらい部分もあります。そこで今回は、できるだけシンプルな構成に限定し、どこまで成立するのかを検証しました。モデルは gpt-realtime-1.5 の… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Ftechblog.heroz.jp%2Fentry%2F2026%2F04%2F30%2F085433" title="S2S APIでどこまで作れるのか？〜gpt-realtime 1.5 と System Prompt / Tool Callingだけで試した3つの音声アプリ - HEROZ Tech Blog" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/h/heroz-tkubo/20260410/20260410095412.png Hatena Blog https://hatena.blog 2026-04-30 08:54:33 S2S APIでどこまで作れるのか？〜gpt-realtime 1.5 と System Prompt / Tool Callingだけで試した3つの音声アプリ rich https://techblog.heroz.jp/entry/2026/04/30/085433 1.0 100%