OpenAI GPT-Realtime-2 API GA|1分3円の翻訳と1分1.7円の書き起こしが商用本番に乗る

アイ
目次
音声AIエージェント、ついに「電話に出る」レベルに来た
ねえ、OpenAIが5月8日に出したRealtime APIのGA、ちゃんと意味わかってる人少なくない?
ベータが取れて正式版になっただけじゃなくて、3つのモデルが一気に投入されたんだよね。
GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper。それぞれ「会話AI/翻訳/書き起こし」の3用途で、全部リアルタイム。
これまでChatGPTの音声モードって「結構返事までラグあるよね」「会話の流れ途切れるよね」って感じだったけど、今回のGPT-Realtime-2はコンテキスト32Kから128Kに4倍、Audio MultiChallengeの指示維持が36.7%→70.8%に約2倍。
しかも翻訳は1分0.034ドル(約5円)、書き起こしは1分0.017ドル(約2.5円)。これ、コールセンター業務がガチで置き換わる料金レベルだよ。
正直、わたしの想像してた「音声AIが普通になる時代」が、想像より2年は早く来てる感じ。
そう考える4つの理由
コンテキスト128Kで会議まるごと記憶が現実に
世間では「コンテキストウィンドウなんて長くなっても誤差でしょ」って言う人もいるんだけど、わたしは「128Kは会議AIにとって決定的」だって思ってる。
なぜなら、音声トークンはテキストの数倍を消費するから。1分の音声は約1,000〜2,000トークン使う計算で、32Kだと15-30分が限界、128Kなら60-120分の会議が丸ごと入るようになる。
これって、営業会議1時間まるごと文脈保持したまま、AIが質問に答えてくれるってことなんだよね。「30分前の○○さんの発言、もう一度どこにあったっけ?」って聞いたら、AIが「14分頃の◯△に関する文脈で言ってましたよ」って答えてくれる。
これ、Otter.aiとかが「会議後の検索機能」として提供してた価値を、会議中のリアルタイム応答で提供できるってこと。差がデカすぎる。
しかも32K→128Kなのに、$32/1M音声入力っていう価格は据え置き気味。実質的な値下げが起きてる。
リアルタイム会議アシスタントの本命がここで決まったかも。
ソース: Advancing voice intelligence with new models in the API(OpenAI)
Audio MultiChallengeで指示維持70.8%という新次元
世間ではベンチマーク数字って「研究者の自慢でしょ」って思われがちなんだけど、わたしはこの「instruction retention 70.8%」っていう数字、結構ヤバいって思ってる。
なぜなら、Scale AIのAudio MultiChallengeっていうベンチマークは、「途中で別の指示を挟まれても元の指示を覚えていられるか」を測るものだから。これが前世代GPT-Realtime-1.5の36.7%から70.8%に倍増してる。
人間で言うと「会話の途中で別の話題に飛んでも、元の話題に戻れる」レベル。これ、音声エージェントが「実用」になるかどうかの境界線なんだよね。
例えばコールセンターで、お客さんが「あ、ちなみに〇〇って何ですか?」って横道に逸れた後、AIが「元のお問い合わせの内容に戻りますと…」って自然に戻せるか。36.7%だと半分以上失敗、70.8%だとほぼ実用範囲。
これ、OpenAIが「電話AI」を本気で商用化しに来たっていうシグナルだと思う。GoogleもMicrosoftも同じレースに来てる中、現時点で音声AIのSOTAはOpenAI。
つまりこれから1-2年で、わたしたちが企業に電話したとき「AIが受け答え」っていうのが、今のIVR(自動音声案内)レベルから本格的な会話レベルに進化する。良くも悪くも。
ソース: GPT-Realtime-2: OpenAI Voice AI Models 2026(BuildFastWithAI)
70言語翻訳が1分3円、Zoom同時通訳より安い
世間では「リアルタイム翻訳?Google翻訳でいいじゃん」って思われがちなんだけど、わたしは「1分3円という単価が業界を破壊する」って思ってる。
なぜなら、Zoomの同時通訳機能は月額1.99ドル、Microsoft Teamsの翻訳機能も有料プラン込み、専門通訳者は1時間1万円超。それに対してGPT-Realtime-Translateは1分0.034ドル=1時間2.04ドル(約300円)。
通訳者の約30分の1のコストで、しかも70言語以上を即時対応。スワヒリ語、ヒンディー語、タガログ語、なんでも来い。
これ何が起きるかっていうと、国際会議の通訳ブースがいらなくなる。観光客の窓口にAI翻訳タブレット置けば、母国語で対応できる。海外Eコマースのカスタマーサポートが全言語対応で即時化できる。
ただし出力言語は13言語に限定(日本語含む)なんだけど、これは主要マーケット網羅してるから実用上ほぼ問題ない。
通訳業界、特に同時通訳の単価1万円の領域、結構厳しくなりそう。逆に会議通訳の専門性(外交・法律・医療)は残るだろうけど、ビジネス通訳のミドル層は5年以内に消える可能性が高い。
これは便利な反面、職業のあり方を変えるニュースだなって正直思う。
ソース: OpenAI Releases Three Realtime Audio Models(MarkTechPost, 2026-05-08)
Whisper 1分1.7円、Otter.aiが侵食される未来
世間では「Whisperは前からあったでしょ」って言う人もいるけど、わたしはこのGPT-Realtime-Whisper(1分0.017ドル)の単価がOtter.ai/Notta/Fireflies等を直撃するって思ってる。
なぜなら、Otter.aiの個人プラン月額10ドル、Business 20ドル、Notta月額13.99ドルっていう価格設定が、API 1分1.7円で叩かれるから。
1時間会議=月20回として、API直接利用なら月60分×20 = 1,200分 = 約20ドル。これ、SaaS価格と同じか安い。しかも自前アプリに組み込めるから、Otter.aiの中間マージンが消える。
実際、Granola/Read.ai/tldv みたいな新興AI会議ツールがGPT-Realtime-Whisperベースで作られたら、Otter.aiは機能じゃなくUI/統合の戦いに追い込まれる。
これ、SaaS市場でよくある「API化されたら中間レイヤが消える」現象。10年前のTwilio(電話API)でPBX業界が再編されたのと同じパターン。
わたしたちユーザー視点だと、会議書き起こしSaaSの価格が下がるか、機能リッチ化(自動要約/タスク抽出/CRM連携)で差別化するか、どちらかになる。
短期的にはユーザーの勝ち、SaaSベンダーは試練の時期だよね。
ソース: OpenAI Adds GPT-Realtime-2, Live Translation, and Streaming Transcription to Its API(ALM Corp)
まとめ:私たちの仕事と暮らしへの影響
GPT-Realtime-2の3モデルGAは、「音声AIの商用本番化」が始まった瞬間だと思う。
これからの1-2年で、わたしたちはコールセンターのAI応答、AI同時通訳、AI議事録を日常的に体験するようになる。料金が劇的に下がってるから、中小企業や個人事業主でも導入可能な範囲。
職業面では、通訳(特にビジネス同時通訳)、コールセンター・オペレーター、文字起こしオペレーターの領域に直接影響する。一方でコンテキストを理解した上での専門通訳(医療・法律・外交)/高度な共感を要するカスタマーサクセスは残る。
個人として準備しておきたいのは、「英語学習の優先順位を考え直す」こと。日常会話レベルなら、もうAIで足りる。逆に専門分野の英語、自分の声のキャラクターは資産になる。
それと音声AIエージェントを使った副業もチャンス。BPO(業務委託)でコールセンターを請けて、AIに大半をやらせて差額を稼ぐみたいなモデルが、技術的にはもう可能。
関連記事: 音声AIツール比較ガイド
ソース: