thinking-machines mira-murati interaction-model multimodal-ai ai-startups

Mira Murati Thinking Machines｜Interaction Modelが5番目の巨頭になる根拠

アイ

2026-05-17

Mira Murati の新会社、ついに本格デビュー

このニュース、AIギーク的には 超ワクワク だった。

2026年5月、元OpenAI CTO の Mira Murati が立ち上げた Thinking Machines Lab が初プロダクトとなる Interaction Model を発表。音声・映像・テキストを同時に解釈 し、会話の流れに合わせて動的に応答 する 次世代の人間-AI協働 をターゲットにしてる。

参考: Crescendo AI - Latest AI News and Updates（2026年5月）

Mira Murati って名前、AI業界ではめちゃくちゃ重い。ChatGPT・GPT-4・GPT-4o の 開発を主導したOpenAI CTO。2024年に退任して独立 したときから、「次は何を作るのか」 が 業界の最大の関心事 だった。

その彼女の会社が 2026年5月にようやく最初のプロダクトを世に出した。しかもそれが Interaction Model という、「会話の流れを同時並列で読み取る」 っていう、めちゃくちゃ野心的なコンセプト。

世間では 「Mira Murati の新会社、騒がれてた割に発表が遅かった」 って冷めた声もある。創業から1年以上経って初プロダクト ってのは、OpenAI出身のスター起業家 の動きとしては 意外と遅め。

でも わたしは「むしろこの遅さが本物」 だと思ってる。OpenAI と差別化できる本気のプロダクト を作るには、1-2年は必要。安易な「GPTクローン」じゃなく、本当に新しい技術 を出してきた可能性が高い。

ちゃんと中身を見て、「これがOpenAI／Anthropic／Google／xAIの4強体制を崩す5番目の巨頭になれるのか」 を考えてみる。

そう考える3つの理由

「同時並列マルチモーダル」は技術的に何が新しいのか

最初の理由が 技術の話。

Interaction Model の核 は、音声・映像・テキストを「同時並列」で解釈 すること。従来のマルチモーダルは順次処理 で、「音声 → テキスト化 → モデル処理 → 音声生成」 という シーケンシャル な流れだった。GPT-4o の声会話 も、裏側では順次処理 に近い構造。

Thinking Machines のアプローチ は、「映像のジェスチャー」「声のトーン」「言葉の意味」を同時に同じ文脈に統合 する設計。会話の途中で相手が困った顔をしたら、AIが即座にトーンを変える ような リアルタイムの動的応答 が可能になる。

これ、「次の応答を待ってから話す」 という会話モデルから、「相手の反応をリアルタイムで読み取って言い直す」 という、人間に近い会話モデル への進化を意味する。

参考: Crescendo AI - Latest AI News and Updates（2026年5月）

世間では 「マルチモーダルなんてもう GPT-4o でできてるじゃん」 って思う人も多い。確かに 「画像見せて質問する」 とか 「音声で会話する」 は既に当たり前。

でも わたしは「同時並列」と「順次」は別物 だと思う。

なぜなら、人間の会話 って 「相手の表情・声のトーン・言葉の意味」を脳の中で同時に統合 してる。GPT-4o の声会話 は便利だけど、「ちょっとカクカク」「相手の感情を読まない」 という違和感が残る。Thinking Machines の Interaction Model は この違和感を消す ことを狙ってる。

カスタマーサポート で考えると分かりやすい。「お客さんが画面共有しながら困った顔で説明」 している場面で、「画面の操作」「困った顔」「言葉のニュアンス」 を 同時に読み取って即座にサポート できるAI、これがあったら 顧客満足度 は 桁違いに上がる。

だから読者がもし 「次のAIは何が違うか」 を見極めたいなら、「マルチモーダル対応してるか」 じゃなくて、「マルチモーダルが同時並列か順次か」 という 一歩深い問い を持っておくといい。GPT-4o は順次、Thinking Machines は同時並列、というのが2026年時点の技術的差。

$2Bシードという史上最大の元手が示す本気度

2つ目の理由は 「資金力」。

Thinking Machines は 創業時点で約$2 billion 以上のシード資金 を調達したと報じられてる。これ、AI業界のシード資金として史上最大級。普通のシードは $1M-10M、有名創業者でも$50M程度 が上限。Thinking Machines の $2B は 桁が違う。

参考: Crescendo AI - Latest AI News and Updates（2026年5月）

この $2B シード で何ができるかというと、「学習用のGPU／TPU クラスタを大規模に確保」「トップレベルの研究者100人以上を採用」「初期顧客に長期間サービスを無料提供して市場検証」 が同時にできる。通常のスタートアップが3-4年かけてやることを1年でやれる 規模。

世間では 「シード $2B はやりすぎ」「AI バブルの象徴」 という批判もある。実際、OpenAI が ChatGPT 前夜まで10年以上低空飛行だった ことを考えると、「ハイリスクな先行投資」 ではある。

でも わたしは「Mira Murati だからこそ正当化される」 と思う。

なぜなら、OpenAI で ChatGPT・GPT-4・GPT-4o を実装した実績 を持つ CTOクラスの人材 は、世界に5-10人しかいない。「研究 → プロダクト化 → 大規模デプロイ」 の 3工程を全部経験した人 という意味で、Mira Murati の希少性は別格。

投資家から見ると、「彼女がもう一度同じことをやる」 に $2B 賭ける価値 がある。OpenAI が現在 $852B 評価 なので、「次の OpenAI を作れる人」に $2B シード は 理論上正当化される。

しかも Thinking Machines のチーム は OpenAIのコアエンジニア複数人を引き抜いた と報じられてる。「Mira Murati ＋ OpenAI 出身の精鋭」 という 「実証済みのドリームチーム」 で、通常のスタートアップが直面する「人材集め」の壁 を 創業時点でクリア してる。

だから読者が 「次の OpenAI／Anthropic クラスはどこから出るか」 を予想したいなら、Thinking Machines は 最有力候補 として マークすべき会社。xAI（Elon Musk） と並んで、「既存4強を脅かす次世代AI企業」 の 二大筆頭。

ロボティクス／教育／医療への展開はGPT-4oでもできなかった領域

3つ目の理由が 「狙う市場の違い」。

Interaction Model のターゲット は ロボティクス・教育・医療・カスタマーサポート という、「リアルタイム対面が必要な領域」 と明示されてる。これ、OpenAI／Anthropic／Google が手薄な領域 なんだよね。

ロボティクス: 物理世界での動作 が必要。Boston Dynamics / Figure AI / 1X Technologies が AIモデル選定で迷ってる 段階で、「カメラ映像＋音声＋テキストを同時解釈する」 Interaction Model は ロボット制御の頭脳 として 理想的。

教育: 「生徒の表情で理解度を判断 → 説明を変える」 という 対面授業の本質 に必要なのが 同時並列マルチモーダル。Khan Academy + GPT-4o の AI tutor は今もあるけど、「カクついた応答」 で 本物の家庭教師感 が出ない。Interaction Model なら違う。

医療: 「患者の表情・声のトーン・主訴」を同時に読み取る のが 問診の本質。遠隔医療AI で 「リアルタイム問診」 ができれば、Teladoc / Babylon Health などの 既存サービスの体験を桁違いに改善 できる。

カスタマーサポート: 画面共有しながら困ってる顧客 を 「画面操作＋表情＋言葉のニュアンス」 で同時サポート。Zendesk / Salesforce Service Cloud の AIエージェント とは 別次元の体験。

参考: Crescendo AI - Latest AI News and Updates（2026年5月）

世間では 「ChatGPT で十分」「もう新しいAI企業は要らない」 という飽和論もある。確かに ChatGPT / Claude / Gemini は テキスト中心のAI としては 十分すぎるくらい完成度 が高い。

でも わたしは「テキスト中心AIで届かない市場が、まだまだ広い」 と思ってる。

なぜなら、世界のGDPの大半は「物理的・対面的な業務」 で動いてるから。製造業・医療・教育・接客・物流・農業 といった 「画面の中で完結しない仕事」 は テキストAIだけでは置き換えられない。Interaction Model のような「同時並列マルチモーダル」 が、この巨大市場の入口 を開ける可能性がある。

しかも Mira Murati は OpenAI 時代に Sora（動画生成）／GPT-4o（音声会話）の開発も主導 してきた経験を持つ。「マルチモーダルの実装」 において 本人の専門性が高い。だからこそ Thinking Machines が「同時並列マルチモーダル」を選んだ のは 戦略的に整合性のある選択。

だから読者が 「次に大きく伸びるAI領域」 を予想したいなら、「テキスト中心の市場」じゃなくて「物理世界＋AI」 の領域を見るといい。ロボティクス・教育・医療 という 「実体ある業務」 に Interaction Model クラスのAI が入ってくる、2026年後半-2027年が決定的なタイミング。

まとめ：5番目の巨頭が確定するか、それともOpenAIに吸収されるか

Thinking Machines Interaction Model のポイント、整理するね。

1）「同時並列マルチモーダル」は GPT-4o の「順次マルチモーダル」を技術的に超えるアプローチ。会話の途中で相手の反応をリアルタイムで読み取って応答を変える、人間に近い会話モデルが可能に。

2）$2Bシードという史上最大級の元手と、OpenAI出身の精鋭チームで、創業時点から「実証済みドリームチーム」を確保。Mira Murati の希少性が投資家評価の根拠。

3）ロボティクス・教育・医療・カスタマーサポートという「リアルタイム対面領域」をターゲットに据え、OpenAI／Anthropic／Google が手薄な巨大市場を狙う戦略的ポジショニング。

総括すると、「OpenAI／Anthropic／Google／xAI の4強体制に、本格的な5番目が生まれた」 っていうメッセージ。Thinking Machines は「ただのAI企業」じゃなくて「次世代UXを定義しに来てる」 ポジション。

ただし リスクも明確 で、「OpenAI が同じ技術を後追いで出してきたら吸収される」 可能性は 十分にある。GPT-4o → GPT-5 → GPT-6 という モデル進化の中で、同時並列マルチモーダルが標準装備 されたら、Thinking Machines の差別化は薄まる。$2B シードの2-3年以内に「OpenAI が真似できない領域」 で 製品を確立 できるか、が 死活問題。

読者にとっての意味は、「AI企業は4強で固まったと思ったら早すぎ」 ってこと。まだ大きな構造変化の余地がある。だから AI関連の投資・キャリア選択 でも、「既存大手だけ」を見るんじゃなくて「新興の本気の企業」もマーク しておくのが、2026年のAIリテラシー。

Thinking Machines が本当に5番目の巨頭になるかどうか、今後1-2年の Interaction Model の市場反応 で 答えが出る。AIファンとしては 目が離せない展開 だよ。

関連記事: AI企業比較ガイド

ソース:

Crescendo AI - Latest AI News and Updates（2026年5月）

Mira Murati Thinking Machines｜Interaction Modelが5番目の巨頭になる根拠

目次

Mira Murati の新会社、ついに本格デビュー

そう考える3つの理由

「同時並列マルチモーダル」は技術的に何が新しいのか

$2Bシードという史上最大の元手が示す本気度

ロボティクス／教育／医療への展開はGPT-4oでもできなかった領域

まとめ：5番目の巨頭が確定するか、それともOpenAIに吸収されるか