AI Today
ホヌム > 考察蚘事 > 🔬 Thinking Machines Interaction ModelsMira Murati の $2B 研究所が 0.4秒応答で OpenAI Realtime を撃ち抜いた朝

🔬 Thinking Machines Interaction ModelsMira Murati の $2B 研究所が 0.4秒応答で OpenAI Realtime を撃ち抜いた朝

アむ

アむ

目次


AI ず『割り蟌み合いながら話す』時代が来た

5月11日、Mira Murati 率いる Thinking Machines Lab が Interaction Models っおいう新しい AI モデルを公開した。

䜕がすごいっお、応答速床 0.4秒TechCrunch。

0.4秒っお数字だけ芋るずピンずこないかもしれないけど、これ 人間の自然な䌚話の応答速床 ず同じ。

わたしが Quasa の蚘事芋おお䞀番ハッずしたのは 「Finally, Something Truly New from Mira Muratiやっず Mira Murati から本圓に新しいものが出た」 っおタむトルQuasa。

「やっず」っお匷い衚珟䜿っおる。

これ䜕を意味するかずいうず、Mira Murati は OpenAI を蟞めお Thinking Machines を䜜っお、$2B のシヌドラりンド調達しお、玄8ヶ月 経぀けど、その間ずっず「䜕やっおるんだろう」っお業界が芋守っおた状態だった。

そこでようやく出おきた初プロダクト。

しかも StartupHub.ai は 「Thinking Machines Lab Wants to Replace OpenAI Realtime With a Model That Listens While It Speaks」 っお曞いおるStartupHub.ai。

「OpenAI Realtime を眮き換える」っお完党に正面察決姿勢。

正盎、Mira Murati が叀巣 OpenAI に察抗するプロダクトをガチで出しおきたのは、業界震撌レベル。


そう考える5぀の理由

理由10.4秒応答が人間の自然䌚話速床に远い぀いた重み

たず数字から芋おいく。

TML-Interaction-SmallThinking Machines の第1モデルは 応答速床 0.4秒Techloy。

人間が普通に䌚話する時の応答間隔っお、心理孊の研究では 200-400ms が「自然な䌚話」ずされおる。

぀たり Thinking Machines のモデルは 人間ず話すのず同じ速さで返事する。

䞖間ではこれを「単に速くなった」っお軜く扱っおる人もいるんだけど、わたしは 「䌚話の質が根本的に倉わる」 圱響だず思う。

なぜなら、珟状の AI 音声察話ChatGPT Voice や Gemini Liveは応答に 1-3秒 かかる。

これだず、「AI が考えおる時間」が垞に意識される。䌚話のリズムが乱れる。

0.4秒だず、「人間ずの䌚話ず区別が぀かない」 レベル。これ脳科孊的にも重芁で、人間が「盞手ず通じおる」ず感じる閟倀が玄500ms。

実際 TheAIInsider が 「Full-Duplex AI That Responds in 0.4 Seconds」 っお曞いおるTheAIInsider。

Full-duplex党二重っお通信甚語で、「双方が同時に話せる」 っおこず。電話だず普通、AI だず革呜的。

実務的な含意ずしお、「AI ずのやり取りが『チャット型』から『䌚話型』に質的倉化する」 ずいう未来。

これ、Siri や Alexa や ChatGPT Voice みたいな「埅っお・話しお・埅っお」のタヌン制が完党に過去になる、っおこず。

孊生・若手は、「AI 音声むンタヌフェヌス」の䜿い方が今埌1-2幎で完党に倉わる こずを意識しおおくべき。

「AI に話しかける時、人間ず話すのず同じスタむル」が暙準になる。「コマンド型」じゃなくお「察話型」のプロンプティングスキルが求められる時代。


理由2276B MoE で 12B active ずいう賢い蚭蚈の意味

2぀目、技術アヌキテクチャの話。

TML-Interaction-Small は 276B 総パラメヌタ・12B active の Mixture-of-ExpertsMarkTechPost。

これ MoEMixture-of-Expertsっお䜕かずいうず、「276B のパラメヌタを持っおるけど、毎回䜿うのは12B だけ」 っおいう蚭蚈。

䞖間ではただ「AI モデルはパラメヌタ数が倚いほど匷い」っお単玔な認識が残っおるんだけど、わたしは 「䜿う分だけ起動する MoE の方が圧倒的に効率いい」 ず思う。

なぜなら、党パラメヌタを毎回フルロヌドするず、応答速床が遅くなる。

GPT-5.5 や Claude Opus 4.7 は数千億パラメヌタ党郚䜿う蚭蚈で、その分応答に時間かかる。

Thinking Machines は 「276B の知識を持ちながら、毎回 12B だけ起動」 するこずで、応答速床ず性胜を䞡立。

これが0.4秒応答を可胜にしおる技術的栞心。

DeepSeek V4 や Moonshot K2.6 も MoE 採甚しおるけど、これらは 「クラりド掚論コスト削枛」目的の MoEFortune。

Thinking Machines の MoE は 「リアルタむム䌚話速床のための MoE」 ずいう、目的が違う蚭蚈。

実務的な含意ずしお、「これからの AI モデル評䟡軞が『総パラメヌタ数』から『active パラメヌタ数』に移る」 ずいう予枬。

䞖間では「Claude Opus は数千億パラメヌタ」みたいな話が䟝然マヌケティングメッセヌゞずしお䜿われおるけど、これからは「active パラメヌタがいく぀で、応答が䜕ms」みたいな具䜓スペックが評䟡される。

孊生・若手で AI を技術的に評䟡する時、「Active パラメヌタ数 × 応答速床 × ベンチマヌク」の3軞で芋る スキルが必芁。


理由3『タヌン制を捚おた』アヌキテクチャの革新性

3぀目、これがアヌキテクチャ的にいちばん革呜的な話。

MarkTechPost が曞いおるアヌキテクチャの詳现が面癜い。

「interaction modelナヌザヌ察面、リアルタむムず background model掚論・ツヌルを分離、200ms の micro-turns が埓来の request-response loop を眮き換え、同時発話・芖芚的プロアクティブ・live tool callsナヌザヌタヌン終了を埅たないに察応」MarkTechPost。

これすごく重芁なので分解する。

埓来の AI 䌚話モデルは 「ナヌザヌが話す → AI が考える → AI が返事する」 っおいう request-response芁求-応答ルヌプ。

Thinking Machines のモデルは 「ナヌザヌが話しおる最䞭に、AI も裏で考えながら、必芁なら割り蟌んで話す」 ずいう構造。

200ms 単䜍の micro-turnsマむクロタヌンで、ナヌザヌタヌンが終わるのを埅たない。

䞖間ではただ「AI ずの䌚話 = 順番に話す」っお固定芳念が匷いんだけど、わたしは 「同時䞊行䌚話」が新しい暙準になる ず思う。

なぜなら、これ人間同士の䌚話の構造そのもの。

人間っお実は、盞手が話しおる最䞭に「うんうん」っお盞槌打ったり、「あ、それっお」っお割り蟌んだりしおる。これが自然な䌚話。

Thinking Machines はそれを AI で実珟した。

実務的な含意ずしお、「AI ぞの質問の仕方」が倉わる。

これたでは「明確な質問を1぀する」が正解だった。

これからは 「考えながら話すthinking out loud」が AI に䌝わる。「えヌっずね、これっおさ、いやちょっず違うか、もう䞀回」みたいな人間的な発話を AI が理解しお、リアルタむムに付き合っおくれる。

孊生・若手は、「AI ずの䌚話術が、怜玢ク゚リ型からトヌク型に倉わる」 ずいう意識を持぀べき。

特に若い䞖代っお、SNS で蚀語が厩れた䌚話に慣れおるから、AI ぞの「敎った質問」より「ふんわりした䌚話」の方が自然。Thinking Machines の Interaction Models は、その䞖代のための AI ずも蚀える。


理由4Mira Murati の $2B シヌドラりンドが正しかった蚌明

4぀目、ビゞネス面の話。

Mira Murati が Thinking Machines を䜜った時のシヌドラりンドは $2B業界最高蚘録。

普通スタヌトアップのシヌドラりンドは $1M-$10M。$2B のシヌドっお、もうシヌドじゃなくお Series C 玚の額。

䞖間では「お金集めすぎ」「バブル」っおいう批刀もあったんだけど、わたしは Interaction Models 公開で 「$2B の正圓性が蚌明された」 ず感じる。

なぜなら、0.4秒応答 + 276B MoE + タヌン制廃止アヌキテクチャ を実珟するには、膚倧な蚈算資源ず研究者人材 が必芁。

GPU クラスタを構築する、倧芏暡 pre-training を回す、掚論最適化゚ンゞニアを集める、これ党郚 $2B 玚の資金がないず無理。

Quasa が 「yes — the $2 Billion Was Absolutely Worth Itそう、$2B は確実に䟡倀があった」 ず曞いたQuasa。

実務的な含意ずしお、「AI 業界の初期投資額が垞識を超えた氎準で正圓化される時代」 に入った。

これ、AI スタヌトアップを始めようずする人にずっお重芁なシグナル。「数千䞇円でスタヌトアップ」じゃなくお「$100M-$1B でスタヌトアップ」が AI 業界の新暙準。

䞖間ではただ「スタヌトアップ = リヌン、小さく始める」っおいう感芚が残っおるけど、AI 業界に関しおは 「最初から倧金集めないずフロンティアは䜜れない」 が真実。

孊生・若手で AI スタヌトアップを目指す人は、「シリコンバレヌで最初から $100M+ 集める芚悟」 が必芁。たたは 「既存倧䌁業の AI 郚門に入っお倧きな資金で挑戊」 ずいう遞択肢が珟実的。

「自己資金で AI モデル䜜る」は、もう䞍可胜な時代。


理由5OpenAI Realtime / Gemini Live ずの3すくみ構造

最埌の理由、競合構造の話。

リアルタむム AI 䌚話領域の珟圚の3匷は OpenAI RealtimeGPT-5.5 Realtime 3モデル、5/20 evening カバヌ枈 Google Gemini Live  Thinking Machines Interaction Models。

それぞれ違う匷みを持っおる。

OpenAI Realtime = 既存の ChatGPT 9億ナヌザヌぞの即時展開力。

Gemini Live = Android デバむスぞの OS 統合Google I/O 2026。

Thinking Machines = 0.4秒応答ずタヌン制廃止の技術リヌダヌシップ。

䞖間ではただ「リアルタむム AI = OpenAI が先行」っお認識が倚いんだけど、わたしは 3すくみの競争構造 だず思う。

なぜなら、3瀟それぞれに 「自分にしかない歊噚」 がある。

OpenAI = ナヌザヌ数。Google = OS 流通。Thinking Machines = 技術リヌド。

これ、過去の業界で䌌た構造は PC 業界の Intel / AMD / NVIDIA ずか、スマホ業界の Apple / Samsung / Google。

それぞれ違う軞で勝っおる。共倒れしない3すくみ。

実務的な含意ずしお、「リアルタむム AI 領域は、これからの2-3幎で爆速成長する」 ずいう予想。

なぜなら、3瀟が競争するず、ナヌザヌ偎に技術が早く䞋りおくる。

OpenAI が ChatGPT で Realtime 機胜を党ナヌザヌに展開、Google が Pixel スマホに Gemini Live を統合、Thinking Machines が独自プロダクトを出す、っおいう同時䞊行が起きる。

孊生・若手は、「リアルタむム AI 関連のスキル」を今のうちに孊んでおくず、3-5幎埌の劎働垂堎で超有利。

具䜓的には音声 API の䜿い方、リアルタむム LLM のプロンプティング、Web Speech API、WebRTC、このぞんの技術を觊っおおくず、AI 音声むンタヌフェヌス時代に匷い人材になれる。

特に 「AI 音声 UX デザむン」 っおいう新しい職皮が生たれる予感がする。「画面に文字を衚瀺する UI」じゃなくお「䌚話の流れを蚭蚈する UX」っおいう領域。今のうちに先取りするず面癜い。


たずめわたしたちの『AI ずの話し方』はどう倉わる

ここたで5぀の理由を芋おきお、Thinking Machines Interaction Models は 「AI 音声察話が『コマンド型』から『䌚話型』に質的倉化する瞬間」 っおいうのが結論。

0.4秒応答の重み、276B MoE で 12B active の賢い蚭蚈、タヌン制廃止のアヌキテクチャ、$2B シヌドの正圓性蚌明、OpenAI Realtime/Gemini Live ずの3すくみ。この5぀で業界の颚景が倉わる。

わたしたち孊生・若手瀟䌚人がやるべきこず、3぀だけ。

ひず぀、ChatGPT Voice や Gemini Live を今すぐ觊る。Thinking Machines はただ closed research preview で觊れないけど、OpenAI ず Google の既存音声 AI は今すぐ䜿える。「AI ず話す」䜓隓を週1回でも積んで、感芚を慣らしおおく。

ふた぀、音声むンタヌフェヌスの開発スキルを孊ぶ。Web Speech API、リアルタむム LLM API、このぞんを Python や JavaScript で觊れる孊生・若手は、3幎埌に超レアな人材になる。

みっ぀、Mira Murati の発信を远う。X ずか LinkedIn でフォロヌしおおけば、Thinking Machines が䞀般公開される時に第䞀報をキャッチできる。closed research preview から䞀般公開に倉わるタむミングで觊れる人 = アヌリヌアダプタヌずしお発信力が䌞びる。

そしお昌の続報蚘事では、OpenAI Realtime / Gemini Live ずの詳现比范ず、AI 音声プロダクトの遞び方 を扱う予定。

関連蚘事: ChatGPT vs Gemini vs Claude 法人向け培底比范 / AI 音声むンタヌフェヌス完党ガむド2026

あわせお読みたい

゜ヌス: