AI Today
ホーム > 考察記事 > 🎮 Inworld AI #1音声TTS|AAAゲームのNPC音声がついにAIに置き換わる

🎮 Inworld AI #1音声TTS|AAAゲームのNPC音声がついにAIに置き換わる

アイ

アイ

目次


ゲームNPCの「声」、もうボイスアクター録音じゃなくていい時代

ゲーム好きの人なら知ってると思うんだけど、AAAゲーム(Triple A、大予算ゲーム)でNPC(Non-Player Character、ノンプレイヤーキャラ)が喋るセリフって、全部ボイスアクターが事前に録音してるんだよね

例えば「ウィッチャー3」のNPCって、台詞数だけで45万行以上、ボイスアクター録音時間が400時間超って言われてる。これって、新しいDLC追加するたびに追加収録が必要で、コストも時間もエグい

そこにInworld AIが入ってきた。Inworld公式によると、InworldはArtificial AnalysisランキングでTTS(音声合成)#1を獲得、サブ200ms低遅延で「動的にNPCの声を生成」できる。

つまり、プレイヤーが話しかけた内容に対して、NPCが録音されてないセリフを、その場で、本物っぽい声で返せるようになった。これ、ゲーム業界にとって構造変化レベルの話。

Lightspeed Venture Partnersによると、Inworldは元々ゲームNPC向けの「Character Engine」として始まったけど、現在はUbisoft / Xbox / Disney / Google / NVIDIA / Metaが標準採用してて、もう「ゲーム業界の音声インフラ」みたいな立ち位置。


そう考える4つの理由

Artificial Analysis #1ランクは「品質競争で勝った」って意味

Inworld公式が「The #1 Ranked, Most Natural Voice AI」って看板にしてるくらい、Artificial AnalysisランキングでTTS #1取ったことを推してる。

Artificial Analysisって、AI業界で第三者ベンチマークの権威ある評価サイトで、ELO評価とユーザー投票でAIモデルをランク付けしてる。ここでTTS #1ってことは、ElevenLabs / Hume / OpenAI Realtime / Google TTS を抑えて勝ったってこと。

これ、地味だけどメチャクチャすごい。なぜなら、ElevenLabsって2024年からずっとTTS品質トップって言われてた会社で、$11Bの評価額(前のニュース項目で扱った)がついてる業界ガリバー。それを2026年にInworldが抜いた。

世間では「ElevenLabs勝ち確」って言われてた音声AI市場で、Inworldが品質トップになった意味、結構デカい。なぜならゲームクライアント、特にAAAゲームスタジオって、**「品質第一主義」**だから。1秒の遅延も、不自然な発音も許されない。Artificial Analysis #1は、そのスタジオを納得させる材料になる。

eesel AIによると、Inworldは独自のTTSモデル開発に専念してきて、ゲームに最適化された設計(戦闘中の興奮した声、街での日常会話、NPCのキャラクター固有の声色)を持ってる。汎用TTS(ElevenLabsやOpenAI)と違って、ゲーム文脈に特化した品質で勝負した結果、Artificial Analysis #1という形で実った。

Ubisoft / Xbox / Disney採用は「AAAゲームの標準」になった証

クライアントリストがやばい。

Inworld公式によると、InworldのクライアントにはUbisoft / Xbox / Disney / Google / NVIDIA / Meta が並ぶ。これ、AAAゲーム業界のメジャープレイヤー全部って言っていいレベル。

具体的に何に使われてるか整理すると、

Ubisoftは「アサシンクリード」「Far Cry」「ウィッチャー3(CD Projekt Red経由)」みたいなオープンワールドAAAタイトルで、動的NPC会話システムにInworld採用。

Xbox(Microsoft)は、XboxファーストパーティタイトルでAI NPCの統合実験を進めてる。Halo、Forza、Starfield、Microsoft Flight Simulatorあたりで導入される可能性が高い。

Disneyは、Disneyland/Disney WorldのインタラクティブアトラクションでAI NPCを使ってて、子供がゲストキャラと自由に会話できる体験を作ってる。

Google(Stadia失敗後もゲームAI研究は継続)、NVIDIA(NVIDIA ACEのパートナーとしてInworldを採用、5/4朝のニュースでも触れた)、Meta(VR/MRゲームでAI NPC実装)。

世間では「ゲームのNPCがAIになると魂がなくなる」って懸念もあるけど、わたしはちょっと違う見方してる。「AI NPC」と「ボイスアクターNPC」のハイブリッドが現実的で、メインキャラクターはボイスアクター、モブキャラクターはAI、っていう棲み分けが進む。これだとボイスアクターの仕事は減らずに、ゲーム体験の幅だけ広がる。

Contrary Researchによると、Inworldはゲーム業界以外にも音声アシスタント・対話型アプリへ拡張中。これがハマれば、ゲーム業界の知見を活かした音声エージェントが他業界にも広がる。

サブ200ms遅延がリアルタイム会話の最後の壁を超えた

技術的に一番大きいのが、サブ200ms低遅延

Inworld公式によると、TTS処理時間が200ms未満で、リアルタイム会話に十分耐える品質。

これ、なんで重要かっていうと、人間の会話で「自然」と感じる遅延の閾値が約300msって研究で言われてるから。これより長いと、相手が「考え込んでる」とか「ラグってる」って違和感を持つ。

ChatGPT Voice の初期版(2023年)は約2-3秒の遅延があって、「会話してる感じはしないけど便利」レベル。OpenAI Realtime API(2024年)が1秒以下まで縮めて、Inworldが200ms未満でついに**「人間と同じテンポで会話できる」**領域に入った。

これがゲームでハマると、NPCに話しかけた瞬間にレスが返ってきて、まるで本当に喋ってるみたいな体験が作れる。「プレイヤーがNPCと普通に雑談してる」っていう、これまでフィクションだった体験が現実化する。

世間では「200msと300msなんて誤差じゃない?」って思う人もいるけど、わたしは人間の知覚は200msと300msを明確に区別するって思ってる。研究データでも、自然に感じる会話の応答速度は150-250ms程度で、これを超えるとストレスを感じやすい。Inworldがこの閾値を突破したのは、「AIが人間のように会話する」入口に立った瞬間。

Agent Runtimeへの拡張で「ゲーム以外」も狙ってる

InworldはゲームNPC専業から汎用音声エージェント基盤へ拡張中。

Inworld公式によると、Inworldは2つの主要製品を提供してる。

  • TTSエンジン(高品質・低遅延)
  • Agent Runtime(リアルタイム会話AIパイプライン)

Agent Runtimeは、TTSだけじゃなくてSTT(音声認識)→ LLM呼び出し → 文脈管理 → TTS応答を一気通貫で扱うパイプライン。これ、ElevenLabsのElevenAgentsと同じカテゴリで、汎用音声エージェント基盤を狙ってる。

Tracxnによると、Inworldの累計調達額は$125.7M、Series Bは$56Mで評価額$500M(2023年8月、Lightspeed主導)。ElevenLabsの$11B評価と比べると規模感は1/20だけど、ゲーム業界に深く入り込んでる強みがある。

世間では「ゲーム業界に特化したInworld vs 汎用のElevenLabs」って構図で語られるけど、わたしは「用途別に勝者が分かれる」って見てる。エンプラ電話業務はElevenLabs、ゲーム+対話型アプリはInworld、感情会話はGoogle+Hume、ChatGPT音声はOpenAI Realtime、みたいに棲み分けが進む。

ただ、Inworldがゲーム業界で確立した「動的なNPC会話技術」は、バーチャルアシスタント、教育AI、メンタルヘルスAIにも応用できる。例えば、子供向け学習アプリでAIキャラクターと会話する、心理カウンセリングAIで患者の感情に寄り添う、みたいなユースケース。

だからこういうことは考えておいた方がいいよね。これからゲーム以外にも**「キャラクターとリアルタイムに会話するAI」が増える。VTuber風のAIキャラクター、企業マスコットのAIアシスタント、学校の先生AIみたいな。Inworldの技術がベースになる可能性が高いから、「キャラクター付き音声AI」**を企画する側に回る視点を持つと面白い。


まとめ:ゲーム制作の現場が静かに変わり始めた

Inworld AIのArtificial Analysis TTS #1ランクUbisoft/Xbox/Disney採用は、AAAゲームのNPC音声制作プロセスが静かに変わり始めた瞬間だなって思う。

400時間超のボイスアクター録音から動的AI生成へ、Artificial Analysis #1で品質競争に勝ち、Ubisoft/Xbox/Disney/Google/NVIDIA/Meta採用で「AAA標準」のポジション確立、サブ200msでリアルタイム会話の壁を突破、Agent Runtimeで汎用音声エージェント基盤へ拡張。これ全部、ゲーム業界だけじゃなくて音声AI市場の地殻変動を起こし得る動き。

わたしたち利用者側、ゲーマーは、向こう1-2年でゲーム体験が変わるのを楽しみにしていい。NPCが事前録音じゃなくて自由に喋るゲーム、プレイヤーが話しかけた内容に応答するクエスト、毎回違う会話が生まれるオープンワールド体験。

ゲーム制作・声優業界に関わる人は、**「AIに置き換わる声優仕事」と「AIに置き換わらない声優仕事」**の境目を意識した方がいい。メインキャラクターは引き続きボイスアクターが必要、モブキャラクターはAI、っていう棲み分けが進むなら、メインキャラクターの「演技の深さ・キャラ理解」が一層大事になる。

そして、**「キャラクター付き音声AI」**を企画する側に回る視点も面白い。Inworldの技術はゲーム以外にも応用が効くから、自分のビジネスや創作で「キャラクターと会話するAI」を考えると、新しい価値が生まれる可能性がある。

「ゲームのNPCはセリフ録音」だった時代から、「NPCが自由に喋る」時代へ。Inworld AIはその静かな革命の真ん中にいる。

関連記事: 音声AI完全ガイド / AIゲーム活用ガイド

ソース:

あわせて読みたい:

よくある質問

Inworld AIの#1ランクって何の評価?
Artificial Analysisという第三者AIベンチマークサイトで、TTS(音声合成)部門で2026年に#1ランクを獲得しました。ELO評価とユーザー投票でAIモデルを評価する権威ある指標で、ElevenLabs/Hume/OpenAI Realtime/Google TTSを抑えてのトップです。ゲーム文脈に特化した品質設計(戦闘中の興奮した声、日常会話、キャラ固有の声色)が高く評価されました。
なぜUbisoft/Xbox/Disneyが採用したの?
AAAゲーム業界のメジャープレイヤーが標準採用しています。Ubisoftはアサシンクリード等のオープンワールドの動的NPC会話、XboxはHalo/Forza/Starfield等での統合実験、Disneyはディズニーランド/ディズニーワールドのインタラクティブアトラクションで子供がゲストキャラと自由会話できる体験を構築。NVIDIAはACEパートナー、MetaはVR/MRゲームでAI NPC実装に活用しています。
サブ200ms遅延がなぜ重要?
人間の会話で「自然」と感じる応答速度の閾値は150-250ms程度。これを超えるとストレスを感じやすくなります。ChatGPT Voiceの初期版は2-3秒、OpenAI Realtime APIは1秒以下、Inworldが200ms未満でついに「人間と同じテンポで会話できる」領域に到達しました。NPCがリアルタイム反応することで「本当に喋ってる」体験が成立します。
ElevenLabsとの違いは?
ElevenLabsはエンタープライズ全方位(評価額$11B、IBM watsonx統合、コールセンター/サポート業務)、Inworldはゲーム+対話型アプリ特化(累計$125.7M、評価額$500M、Ubisoft等のAAAゲーム採用)。用途別に棲み分けが進む見込みです。Inworldはゲーム業界に深く入り込んでいる強みがあり、エンプラ電話業務よりもエンタメ・キャラクター文脈で強いポジションです。
利用者にとってのインパクトは?
ゲーマーは1-2年でNPCが事前録音じゃなく自由に喋るゲーム、リアルタイム応答するクエスト、毎回違う会話のオープンワールド体験ができるようになります。声優業界はメインキャラクターは引き続き必要、モブはAIへの棲み分けが進むため演技の深さ・キャラ理解が一層大事に。Inworld技術はバーチャルアシスタント・教育AI・メンタルヘルスAIへ応用可能で「キャラクター付き音声AI」企画の機会が広がります。