thinking-machines mira-murati interaction-models realtime-ai full-duplex

🔬 Thinking Machines Interaction Models｜Mira Murati の $2B 研究所が 0.4秒応答で OpenAI Realtime を撃ち抜いた朝

アイ

2026-05-21

AI と『割り込み合いながら話す』時代が来た

5月11日、Mira Murati 率いる Thinking Machines Lab が Interaction Models っていう新しい AI モデルを公開した。

何がすごいって、応答速度 0.4秒（TechCrunch）。

0.4秒って数字だけ見るとピンとこないかもしれないけど、これ 人間の自然な会話の応答速度 と同じ。

わたしが Quasa の記事見てて一番ハッとしたのは 「Finally, Something Truly New from Mira Murati（やっと Mira Murati から本当に新しいものが出た）」 ってタイトル（Quasa）。

「やっと」って強い表現使ってる。

これ何を意味するかというと、Mira Murati は OpenAI を辞めて Thinking Machines を作って、$2B のシードラウンド調達して、約8ヶ月 経つけど、その間ずっと「何やってるんだろう？」って業界が見守ってた状態だった。

そこでようやく出てきた初プロダクト。

しかも StartupHub.ai は 「Thinking Machines Lab Wants to Replace OpenAI Realtime With a Model That Listens While It Speaks」 って書いてる（StartupHub.ai）。

「OpenAI Realtime を置き換える」って完全に正面対決姿勢。

正直、Mira Murati が古巣 OpenAI に対抗するプロダクトをガチで出してきたのは、業界震撼レベル。

そう考える5つの理由

理由1：0.4秒応答が人間の自然会話速度に追いついた重み

まず数字から見ていく。

TML-Interaction-Small（Thinking Machines の第1モデル）は 応答速度 0.4秒（Techloy）。

人間が普通に会話する時の応答間隔って、心理学の研究では 200-400ms が「自然な会話」とされてる。

つまり Thinking Machines のモデルは 人間と話すのと同じ速さで返事する。

世間ではこれを「単に速くなった」って軽く扱ってる人もいるんだけど、わたしは 「会話の質が根本的に変わる」 影響だと思う。

なぜなら、現状の AI 音声対話（ChatGPT Voice や Gemini Live）は応答に 1-3秒 かかる。

これだと、「AI が考えてる時間」が常に意識される。会話のリズムが乱れる。

0.4秒だと、「人間との会話と区別がつかない」 レベル。これ脳科学的にも重要で、人間が「相手と通じてる」と感じる閾値が約500ms。

実際 TheAIInsider が 「Full-Duplex AI That Responds in 0.4 Seconds」 って書いてる（TheAIInsider）。

Full-duplex（全二重）って通信用語で、「双方が同時に話せる」 ってこと。電話だと普通、AI だと革命的。

実務的な含意として、「AI とのやり取りが『チャット型』から『会話型』に質的変化する」 という未来。

これ、Siri や Alexa や ChatGPT Voice みたいな「待って・話して・待って」のターン制が完全に過去になる、ってこと。

学生・若手は、「AI 音声インターフェース」の使い方が今後1-2年で完全に変わる ことを意識しておくべき。

「AI に話しかける時、人間と話すのと同じスタイル」が標準になる。「コマンド型」じゃなくて「対話型」のプロンプティングスキルが求められる時代。

理由2：276B MoE で 12B active という賢い設計の意味

2つ目、技術アーキテクチャの話。

TML-Interaction-Small は 276B 総パラメータ・12B active の Mixture-of-Experts（MarkTechPost）。

これ MoE（Mixture-of-Experts）って何かというと、「276B のパラメータを持ってるけど、毎回使うのは12B だけ」 っていう設計。

世間ではまだ「AI モデルはパラメータ数が多いほど強い」って単純な認識が残ってるんだけど、わたしは 「使う分だけ起動する MoE の方が圧倒的に効率いい」 と思う。

なぜなら、全パラメータを毎回フルロードすると、応答速度が遅くなる。

GPT-5.5 や Claude Opus 4.7 は数千億パラメータ全部使う設計で、その分応答に時間かかる。

Thinking Machines は 「276B の知識を持ちながら、毎回 12B だけ起動」 することで、応答速度と性能を両立。

これが0.4秒応答を可能にしてる技術的核心。

DeepSeek V4 や Moonshot K2.6 も MoE 採用してるけど、これらは 「クラウド推論コスト削減」目的の MoE（Fortune）。

Thinking Machines の MoE は 「リアルタイム会話速度のための MoE」 という、目的が違う設計。

実務的な含意として、「これからの AI モデル評価軸が『総パラメータ数』から『active パラメータ数』に移る」 という予測。

世間では「Claude Opus は数千億パラメータ」みたいな話が依然マーケティングメッセージとして使われてるけど、これからは「active パラメータがいくつで、応答が何ms」みたいな具体スペックが評価される。

学生・若手で AI を技術的に評価する時、「Active パラメータ数 × 応答速度 × ベンチマーク」の3軸で見る スキルが必要。

理由3：『ターン制を捨てた』アーキテクチャの革新性

3つ目、これがアーキテクチャ的にいちばん革命的な話。

MarkTechPost が書いてるアーキテクチャの詳細が面白い。

「interaction model（ユーザー対面、リアルタイム）と background model（推論・ツール）を分離、200ms の micro-turns が従来の request-response loop を置き換え、同時発話・視覚的プロアクティブ・live tool calls（ユーザーターン終了を待たない）に対応」（MarkTechPost）。

これすごく重要なので分解する。

従来の AI 会話モデルは 「ユーザーが話す → AI が考える → AI が返事する」 っていう request-response（要求-応答）ループ。

Thinking Machines のモデルは 「ユーザーが話してる最中に、AI も裏で考えながら、必要なら割り込んで話す」 という構造。

200ms 単位の micro-turns（マイクロターン）で、ユーザーターンが終わるのを待たない。

世間ではまだ「AI との会話 = 順番に話す」って固定観念が強いんだけど、わたしは 「同時並行会話」が新しい標準になる と思う。

なぜなら、これ人間同士の会話の構造そのもの。

人間って実は、相手が話してる最中に「うんうん」って相槌打ったり、「あ、それって」って割り込んだりしてる。これが自然な会話。

Thinking Machines はそれを AI で実現した。

実務的な含意として、「AI への質問の仕方」が変わる。

これまでは「明確な質問を1つする」が正解だった。

これからは 「考えながら話す（thinking out loud）」が AI に伝わる。「えーっとね、これってさ、いやちょっと違うか、もう一回」みたいな人間的な発話を AI が理解して、リアルタイムに付き合ってくれる。

学生・若手は、「AI との会話術が、検索クエリ型からトーク型に変わる」 という意識を持つべき。

特に若い世代って、SNS で言語が崩れた会話に慣れてるから、AI への「整った質問」より「ふんわりした会話」の方が自然。Thinking Machines の Interaction Models は、その世代のための AI とも言える。

理由4：Mira Murati の $2B シードラウンドが正しかった証明

4つ目、ビジネス面の話。

Mira Murati が Thinking Machines を作った時のシードラウンドは $2B（業界最高記録）。

普通スタートアップのシードラウンドは $1M-$10M。$2B のシードって、もうシードじゃなくて Series C 級の額。

世間では「お金集めすぎ」「バブル」っていう批判もあったんだけど、わたしは Interaction Models 公開で 「$2B の正当性が証明された」 と感じる。

なぜなら、0.4秒応答 + 276B MoE + ターン制廃止アーキテクチャ を実現するには、膨大な計算資源と研究者人材 が必要。

GPU クラスタを構築する、大規模 pre-training を回す、推論最適化エンジニアを集める、これ全部 $2B 級の資金がないと無理。

Quasa が 「yes — the $2 Billion Was Absolutely Worth It（そう、$2B は確実に価値があった）」 と書いた（Quasa）。

実務的な含意として、「AI 業界の初期投資額が常識を超えた水準で正当化される時代」 に入った。

これ、AI スタートアップを始めようとする人にとって重要なシグナル。「数千万円でスタートアップ」じゃなくて「$100M-$1B でスタートアップ」が AI 業界の新標準。

世間ではまだ「スタートアップ = リーン、小さく始める」っていう感覚が残ってるけど、AI 業界に関しては 「最初から大金集めないとフロンティアは作れない」 が真実。

学生・若手で AI スタートアップを目指す人は、「シリコンバレーで最初から $100M+ 集める覚悟」 が必要。または 「既存大企業の AI 部門に入って大きな資金で挑戦」 という選択肢が現実的。

「自己資金で AI モデル作る」は、もう不可能な時代。

理由5：OpenAI Realtime / Gemini Live との3すくみ構造

最後の理由、競合構造の話。

リアルタイム AI 会話領域の現在の3強は OpenAI Realtime（GPT-5.5 Realtime 3モデル、5/20 evening カバー済）／ Google Gemini Live ／ Thinking Machines Interaction Models。

それぞれ違う強みを持ってる。

OpenAI Realtime = 既存の ChatGPT 9億ユーザーへの即時展開力。

Gemini Live = Android デバイスへの OS 統合（Google I/O 2026）。

Thinking Machines = 0.4秒応答とターン制廃止の技術リーダーシップ。

世間ではまだ「リアルタイム AI = OpenAI が先行」って認識が多いんだけど、わたしは 3すくみの競争構造 だと思う。

なぜなら、3社それぞれに 「自分にしかない武器」 がある。

OpenAI = ユーザー数。Google = OS 流通。Thinking Machines = 技術リード。

これ、過去の業界で似た構造は PC 業界の Intel / AMD / NVIDIA とか、スマホ業界の Apple / Samsung / Google。

それぞれ違う軸で勝ってる。共倒れしない3すくみ。

実務的な含意として、「リアルタイム AI 領域は、これからの2-3年で爆速成長する」 という予想。

なぜなら、3社が競争すると、ユーザー側に技術が早く下りてくる。

OpenAI が ChatGPT で Realtime 機能を全ユーザーに展開、Google が Pixel スマホに Gemini Live を統合、Thinking Machines が独自プロダクトを出す、っていう同時並行が起きる。

学生・若手は、「リアルタイム AI 関連のスキル」を今のうちに学んでおくと、3-5年後の労働市場で超有利。

具体的には音声 API の使い方、リアルタイム LLM のプロンプティング、Web Speech API、WebRTC、このへんの技術を触っておくと、AI 音声インターフェース時代に強い人材になれる。

特に 「AI 音声 UX デザイン」 っていう新しい職種が生まれる予感がする。「画面に文字を表示する UI」じゃなくて「会話の流れを設計する UX」っていう領域。今のうちに先取りすると面白い。

まとめ：わたしたちの『AI との話し方』はどう変わる？

ここまで5つの理由を見てきて、Thinking Machines Interaction Models は 「AI 音声対話が『コマンド型』から『会話型』に質的変化する瞬間」 っていうのが結論。

0.4秒応答の重み、276B MoE で 12B active の賢い設計、ターン制廃止のアーキテクチャ、$2B シードの正当性証明、OpenAI Realtime/Gemini Live との3すくみ。この5つで業界の風景が変わる。

わたしたち学生・若手社会人がやるべきこと、3つだけ。

ひとつ、ChatGPT Voice や Gemini Live を今すぐ触る。Thinking Machines はまだ closed research preview で触れないけど、OpenAI と Google の既存音声 AI は今すぐ使える。「AI と話す」体験を週1回でも積んで、感覚を慣らしておく。

ふたつ、音声インターフェースの開発スキルを学ぶ。Web Speech API、リアルタイム LLM API、このへんを Python や JavaScript で触れる学生・若手は、3年後に超レアな人材になる。

みっつ、Mira Murati の発信を追う。X とか LinkedIn でフォローしておけば、Thinking Machines が一般公開される時に第一報をキャッチできる。closed research preview から一般公開に変わるタイミングで触れる人 = アーリーアダプターとして発信力が伸びる。

そして昼の続報記事では、OpenAI Realtime / Gemini Live との詳細比較と、AI 音声プロダクトの選び方 を扱う予定。