AI Today
ホーム > 考察記事 > 🎙️ OpenAI Voice API が音声AI市場を「ワンストップ化」した日|ElevenLabs / Deepgram の正念場

🎙️ OpenAI Voice API が音声AI市場を「ワンストップ化」した日|ElevenLabs / Deepgram の正念場

アイ

アイ

目次


音声 AI の「複数ベンダー連結時代」が終わる、らしい

アイです。2026年5月8日に OpenAI が Realtime API から3本立てで音声モデルをローンチ したニュース、わたし最初は 「またモデル出した、OpenAI 多すぎ」 くらいに流してた。

でも詳細読んで 「これ、音声 AI 市場の構造変化なんじゃ?」 って気づいた。

3本立ての構成はこれ:

  • GPT-Realtime-2: GPT-5クラスの推論を音声パイプラインに統合
  • GPT-Realtime-Translate: リアルタイム多言語翻訳
  • GPT-Realtime-Whisper: ストリーミング音声テキスト変換($0.017/分)

従来、音声 AI を作るときは「STT は Deepgram、TTS は ElevenLabs、推論は OpenAI または Anthropic」3つのベンダーを stitching(連結)するのが定石それぞれ別に契約して、API キーを管理して、レイテンシを足し算して という構造。

それが OpenAI 1社で全部完結する ようになった。しかも GPT-Realtime-Whisper は$0.017/分で、Deepgram 標準価格の約半額(BigGo Finance)。価格 × 一気通貫 × 推論統合の3点同時攻撃

ElevenLabs(評価額$3.3B、5月時点)と Deepgram(評価額$1B超) は、音声 AI スタートアップの2大柱この2社が正面から OpenAI と戦う構図 ができた。


そう思う4つの理由

理由1:3本立て構成は「単一ベンダー集中」を技術的に可能にした

世間では 「音声 AI は専門ベンダーに任せた方がいい、OpenAI は得意じゃない」 という見方が長らくあった。Whisper はオープンソースで強かったけど、リアルタイム性能は Deepgram に劣る とされてた。

でもね、わたしは GPT-Realtime-Whisper のストリーミング対応「Whisper の弱点を完全に潰した」 と思ってる。

なぜなら、従来の Whisper は「録音済み音声の文字起こし」に強く、「リアルタイムの音声を順次変換」は苦手 だった(バッチ処理向けの設計)。GPT-Realtime-Whisper は完全ストリーミング音声が話された瞬間から文字が出力される設計(OpenAI 公式)。

これに GPT-Realtime-2(推論)と GPT-Realtime-Translate(翻訳)が並ぶ ことで、「音声入力 → 文字 → 推論 → 翻訳 → 音声出力」のフルパイプラインが1社で完結

Voice AI アプリ開発者にとって、「ベンダーを増やすほど障害点が増える」 っていう実務的な悩みがあった。「STT が落ちたとき、推論側は元気でも全体停止」 という。

OpenAI 1社にまとめると、SLA が一つで済む。レイテンシ最適化も内部で一気通貫に設計 できる。「単一ベンダー集中」を技術的に可能にした のが3本立て構成の本質。

具体的なユースケース例として、コールセンター AI を作る場合、従来は4社契約(Deepgram + ElevenLabs + OpenAI + 翻訳)だったのが、OpenAI 1社で完結契約管理コストが1/4運用コストも下がる

理由2:$0.017/分は Deepgram の半額、価格戦争の宣戦布告

世間では 「OpenAI は性能で勝負、価格は競合と同水準」 という認識が強かった。ChatGPT Plus $20/月、Claude Pro $20/月、Gemini Advanced $20/月 とほぼ横並び。

でもね、わたしは GPT-Realtime-Whisper の$0.017/分 という値付けで、OpenAI が音声 AI 領域だけ「価格戦争モード」に切り替えた と読んでる。

なぜなら、Deepgram の標準音声テキスト変換が$0.0036-0.0043/分(Nova-2)/$0.04-0.06/分(Enterprise) と幅があるけど、標準的な使い方では$0.03-0.04/分相当(Deepgram 公式 pricing)。OpenAI $0.017/分はその約半額

ElevenLabs Scribe v2 Realtime は$0.03-0.05/分レンジこちらに対しても OpenAI は半額価格で殴る戦略 をハッキリ取った。

OpenAI の事業構造上、音声 AI は「ChatGPT 本体の利益で赤字補填してでも市場シェアを取る」 ことが可能。逆に Deepgram / ElevenLabs は音声 AI 単体の事業なので、価格下げると利益率が直撃

これは Amazon が Kindle を原価割れで売って Prime 会員獲得した戦略 に近い。OpenAI ChatGPT 本体で利益を出しつつ、音声API は赤字でも市場制圧 という構造。

Deepgram は「価格で対抗 → 利益率悪化 → 投資家評価下がる」 か、「価格据え置き → 顧客流出」 の二択を迫られる。この板挟みが2026年下半期の最大の論点

理由3:GPT-5クラス推論が音声に統合された意味

世間では 「音声 AI と推論 AI は別物、それぞれ専用設計のほうが性能高い」 という認識が長くあった。ElevenLabs は音声合成、OpenAI は推論、と棲み分け していた。

でもね、わたしは GPT-Realtime-2 が「GPT-5 クラスの推論を音声パイプラインに統合」 した意味は、「音声 AI と推論 AI の境界線が消えた」 ことだと思ってる。

なぜなら、従来は音声 → 文字 → 推論モデル(別 API 呼び出し)→ 文字 → 音声、という多段階構造GPT-Realtime-2 は「音声を聞きながら推論し、音声で返す」を1モデルで実行

最大の差は「音声ニュアンス」を推論モデルが直接受け取れること「怒ってる声」「焦ってる声」「冗談ぽい声」を文字化する過程で失われる情報が、Realtime-2 では保持される(OpenAI Realtime API 公式)。

これは コールセンター AI / メンタルヘルス AI / 教育 AI といった 「人間の感情を理解する必要がある AI」 にとって決定的な改善。ElevenLabs の音声合成が綺麗でも、その入力テキストを作る推論側が感情を捨ててたら意味ない

ローンチ顧客に Foundation Health(医療)/Intercom(カスタマーサポート)/Deutsche Telekom(通信)/Priceline(旅行) が並んでるのは、「感情を扱う業界」に直接刺さった から。

わたしたち個人ユーザーへの影響として、ChatGPT Voice モードが今後 GPT-Realtime-2 ベースになる はず。「ChatGPT に話しかけて応答してもらう体験」が、今までより圧倒的に自然になる 可能性が高い。

理由4:ローンチ顧客10社の質が「本物の検証」になる

世間では 「OpenAI のローンチ顧客はマーケティング、本当に使うかは別」 って懐疑的な見方もある。過去のサービスでもローンチ時のロゴ並べて、実際は使ってない例 が確かにあった。

でもね、わたしは 今回の10社(Zillow / Glean / Genspark / Bluejay / Intercom / Priceline / Foundation Health / BolnaAI / Vimeo / Deutsche Telekom) の構成は 「本物の検証」 だと思ってる。

なぜなら、業界がバラけてる:不動産(Zillow)、エンタープライズ検索(Glean)、AI 検索(Genspark)、保険(Bluejay)、CS(Intercom)、旅行(Priceline)、医療(Foundation Health)、Voice AI スタートアップ(BolnaAI)、動画(Vimeo)、通信(Deutsche Telekom)。マーケティングだけなら「有名な5社を並べる」で済む10社で業界バラけてるのは「本気で各業界の検証をやってる」シグナル

特に Glean / Intercom / Vimeo は B2B SaaS 中堅大手B2B SaaS は「使えなければ即解約」 な世界。この3社が本番採用したなら、性能は本物

Deutsche Telekom がローンチ顧客 にいるのも大きい。ドイツ最大の通信事業者で、GDPR の本場プライバシー要件が厳しい欧州で OpenAI Voice API が通った のは、Anthropic / Mistral との競合で OpenAI を選んだ結果

これは 2026年下半期に「Voice AI 業界スタンダード」を OpenAI が握る 流れの起点。ElevenLabs / Deepgram は「対抗できる差別化」を3-6カ月以内に出さないと、シェア急減 という時間制約に追い込まれた。

具体的に、ElevenLabs は「音声合成の表現力」(声優級の演技力)、Deepgram は「特定業界向け最適化」(医療・法務向け辞書統合) で差別化を狙う可能性が高い。ただ「総合力」では OpenAI に勝てない、という構図。


まとめ:ElevenLabs と Deepgram は何で勝負するのか

OpenAI Voice API 3本立てローンチは、音声 AI 市場の構造変化 を引き起こす十分なインパクト。1モデル統合 × 半額価格 × GPT-5推論統合 × 大手10社採用 の4点同時攻撃。

ElevenLabs と Deepgram は 「総合力で OpenAI に勝てない」前提で、特化戦略 に切り替えざるを得ない。ElevenLabs は声優品質のTTS、Deepgram は特定業界辞書最適化 が現実的な選択肢。

Voice AI スタートアップ全体としては、OpenAI Realtime API を「土台」として使い、その上に独自体験を作る という方向に動く可能性が高い。「OpenAI のレイヤーを置き換える」 vs 「OpenAI のレイヤーの上に作る」 の選択。

今夜の Google I/O 2026 で Gemini Voice / Gemini Audio が発表されたら、Voice AI 市場は OpenAI vs Google の2強構造へElevenLabs / Deepgram は3-6カ月以内に立ち位置を決める必要 がある。

夕方の I/O キーノート結果記事で、Gemini Voice の発表内容次第ではこの構図が3者対立に拡大 する可能性も追いかける予定。

関連記事: ChatGPT Plus 月額20ドルの実力検証

ソース: