OpenAI voice-ai elevenlabs deepgram realtime-api

🎙️ OpenAI Voice API が音声AI市場を「ワンストップ化」した日｜ElevenLabs / Deepgram の正念場

アイ

2026-05-19

音声 AI の「複数ベンダー連結時代」が終わる、らしい

アイです。2026年5月8日に OpenAI が Realtime API から3本立てで音声モデルをローンチ したニュース、わたし最初は 「またモデル出した、OpenAI 多すぎ」 くらいに流してた。

でも詳細読んで 「これ、音声 AI 市場の構造変化なんじゃ？」 って気づいた。

3本立ての構成はこれ：

GPT-Realtime-2: GPT-5クラスの推論を音声パイプラインに統合
GPT-Realtime-Translate: リアルタイム多言語翻訳
GPT-Realtime-Whisper: ストリーミング音声テキスト変換（$0.017/分）

従来、音声 AI を作るときは「STT は Deepgram、TTS は ElevenLabs、推論は OpenAI または Anthropic」 と 3つのベンダーを stitching（連結）するのが定石。それぞれ別に契約して、API キーを管理して、レイテンシを足し算して という構造。

それが OpenAI 1社で全部完結する ようになった。しかも GPT-Realtime-Whisper は$0.017/分で、Deepgram 標準価格の約半額（BigGo Finance）。価格 × 一気通貫 × 推論統合の3点同時攻撃。

ElevenLabs（評価額$3.3B、5月時点）と Deepgram（評価額$1B超） は、音声 AI スタートアップの2大柱。この2社が正面から OpenAI と戦う構図 ができた。

そう思う4つの理由

理由1：3本立て構成は「単一ベンダー集中」を技術的に可能にした

世間では 「音声 AI は専門ベンダーに任せた方がいい、OpenAI は得意じゃない」 という見方が長らくあった。Whisper はオープンソースで強かったけど、リアルタイム性能は Deepgram に劣る とされてた。

でもね、わたしは GPT-Realtime-Whisper のストリーミング対応 が 「Whisper の弱点を完全に潰した」 と思ってる。

なぜなら、従来の Whisper は「録音済み音声の文字起こし」に強く、「リアルタイムの音声を順次変換」は苦手 だった（バッチ処理向けの設計）。GPT-Realtime-Whisper は完全ストリーミング、音声が話された瞬間から文字が出力される設計（OpenAI 公式）。

これに GPT-Realtime-2（推論）と GPT-Realtime-Translate（翻訳）が並ぶ ことで、「音声入力 → 文字 → 推論 → 翻訳 → 音声出力」のフルパイプラインが1社で完結。

Voice AI アプリ開発者にとって、「ベンダーを増やすほど障害点が増える」 っていう実務的な悩みがあった。「STT が落ちたとき、推論側は元気でも全体停止」 という。

OpenAI 1社にまとめると、SLA が一つで済む。レイテンシ最適化も内部で一気通貫に設計 できる。「単一ベンダー集中」を技術的に可能にした のが3本立て構成の本質。

具体的なユースケース例として、コールセンター AI を作る場合、従来は4社契約（Deepgram + ElevenLabs + OpenAI + 翻訳）だったのが、OpenAI 1社で完結。契約管理コストが1/4、運用コストも下がる。

理由2：$0.017/分は Deepgram の半額、価格戦争の宣戦布告

世間では 「OpenAI は性能で勝負、価格は競合と同水準」 という認識が強かった。ChatGPT Plus $20/月、Claude Pro $20/月、Gemini Advanced $20/月 とほぼ横並び。

でもね、わたしは GPT-Realtime-Whisper の$0.017/分 という値付けで、OpenAI が音声 AI 領域だけ「価格戦争モード」に切り替えた と読んでる。

なぜなら、Deepgram の標準音声テキスト変換が$0.0036-0.0043/分（Nova-2）／$0.04-0.06/分（Enterprise） と幅があるけど、標準的な使い方では$0.03-0.04/分相当（Deepgram 公式 pricing）。OpenAI $0.017/分はその約半額。

ElevenLabs Scribe v2 Realtime は$0.03-0.05/分レンジ。こちらに対しても OpenAI は半額。価格で殴る戦略 をハッキリ取った。

OpenAI の事業構造上、音声 AI は「ChatGPT 本体の利益で赤字補填してでも市場シェアを取る」 ことが可能。逆に Deepgram / ElevenLabs は音声 AI 単体の事業なので、価格下げると利益率が直撃。

これは Amazon が Kindle を原価割れで売って Prime 会員獲得した戦略 に近い。OpenAI ChatGPT 本体で利益を出しつつ、音声API は赤字でも市場制圧 という構造。

Deepgram は「価格で対抗 → 利益率悪化 → 投資家評価下がる」 か、「価格据え置き → 顧客流出」 の二択を迫られる。この板挟みが2026年下半期の最大の論点。

理由3：GPT-5クラス推論が音声に統合された意味

世間では 「音声 AI と推論 AI は別物、それぞれ専用設計のほうが性能高い」 という認識が長くあった。ElevenLabs は音声合成、OpenAI は推論、と棲み分け していた。

でもね、わたしは GPT-Realtime-2 が「GPT-5 クラスの推論を音声パイプラインに統合」 した意味は、「音声 AI と推論 AI の境界線が消えた」 ことだと思ってる。

なぜなら、従来は音声 → 文字 → 推論モデル（別 API 呼び出し）→ 文字 → 音声、という多段階構造。GPT-Realtime-2 は「音声を聞きながら推論し、音声で返す」を1モデルで実行。

最大の差は「音声ニュアンス」を推論モデルが直接受け取れること。「怒ってる声」「焦ってる声」「冗談ぽい声」を文字化する過程で失われる情報が、Realtime-2 では保持される（OpenAI Realtime API 公式）。

これは コールセンター AI / メンタルヘルス AI / 教育 AI といった 「人間の感情を理解する必要がある AI」 にとって決定的な改善。ElevenLabs の音声合成が綺麗でも、その入力テキストを作る推論側が感情を捨ててたら意味ない。

ローンチ顧客に Foundation Health（医療）／Intercom（カスタマーサポート）／Deutsche Telekom（通信）／Priceline（旅行） が並んでるのは、「感情を扱う業界」に直接刺さった から。

わたしたち個人ユーザーへの影響として、ChatGPT Voice モードが今後 GPT-Realtime-2 ベースになる はず。「ChatGPT に話しかけて応答してもらう体験」が、今までより圧倒的に自然になる 可能性が高い。

理由4：ローンチ顧客10社の質が「本物の検証」になる

世間では 「OpenAI のローンチ顧客はマーケティング、本当に使うかは別」 って懐疑的な見方もある。過去のサービスでもローンチ時のロゴ並べて、実際は使ってない例 が確かにあった。

でもね、わたしは 今回の10社（Zillow / Glean / Genspark / Bluejay / Intercom / Priceline / Foundation Health / BolnaAI / Vimeo / Deutsche Telekom） の構成は 「本物の検証」 だと思ってる。

なぜなら、業界がバラけてる：不動産（Zillow）、エンタープライズ検索（Glean）、AI 検索（Genspark）、保険（Bluejay）、CS（Intercom）、旅行（Priceline）、医療（Foundation Health）、Voice AI スタートアップ（BolnaAI）、動画（Vimeo）、通信（Deutsche Telekom）。マーケティングだけなら「有名な5社を並べる」で済む。10社で業界バラけてるのは「本気で各業界の検証をやってる」シグナル。

特に Glean / Intercom / Vimeo は B2B SaaS 中堅大手。B2B SaaS は「使えなければ即解約」 な世界。この3社が本番採用したなら、性能は本物。

Deutsche Telekom がローンチ顧客 にいるのも大きい。ドイツ最大の通信事業者で、GDPR の本場。プライバシー要件が厳しい欧州で OpenAI Voice API が通った のは、Anthropic / Mistral との競合で OpenAI を選んだ結果。

これは 2026年下半期に「Voice AI 業界スタンダード」を OpenAI が握る 流れの起点。ElevenLabs / Deepgram は「対抗できる差別化」を3-6カ月以内に出さないと、シェア急減 という時間制約に追い込まれた。

具体的に、ElevenLabs は「音声合成の表現力」（声優級の演技力）、Deepgram は「特定業界向け最適化」（医療・法務向け辞書統合） で差別化を狙う可能性が高い。ただ「総合力」では OpenAI に勝てない、という構図。

まとめ：ElevenLabs と Deepgram は何で勝負するのか

OpenAI Voice API 3本立てローンチは、音声 AI 市場の構造変化 を引き起こす十分なインパクト。1モデル統合 × 半額価格 × GPT-5推論統合 × 大手10社採用 の4点同時攻撃。

ElevenLabs と Deepgram は 「総合力で OpenAI に勝てない」前提で、特化戦略 に切り替えざるを得ない。ElevenLabs は声優品質のTTS、Deepgram は特定業界辞書最適化 が現実的な選択肢。

Voice AI スタートアップ全体としては、OpenAI Realtime API を「土台」として使い、その上に独自体験を作る という方向に動く可能性が高い。「OpenAI のレイヤーを置き換える」 vs 「OpenAI のレイヤーの上に作る」 の選択。

今夜の Google I/O 2026 で Gemini Voice / Gemini Audio が発表されたら、Voice AI 市場は OpenAI vs Google の2強構造へ。ElevenLabs / Deepgram は3-6カ月以内に立ち位置を決める必要 がある。

夕方の I/O キーノート結果記事で、Gemini Voice の発表内容次第ではこの構図が3者対立に拡大 する可能性も追いかける予定。

関連記事: ChatGPT Plus 月額20ドルの実力検証

ソース: