AI Today
ホーム > ニュース > 【2026年6月25日 夕方】AIバズニュースまとめ|Alibabaが『Qwen-Robot Suite』でロボティクスに参入、AIが画面の外『身体性AI(Physical AI)』時代へ

【2026年6月25日 夕方】AIバズニュースまとめ|Alibabaが『Qwen-Robot Suite』でロボティクスに参入、AIが画面の外『身体性AI(Physical AI)』時代へ

夕方のAIバズニュース

こんばんは、6月25日(木)の夕方だよ。今日のテーマはちょっとワクワクする話。「AIが画面の外に出て、ロボットの体で動き始めてる」っていう、いわゆる 身体性AI(Physical AI/embodied AI) の潮流だよ。

最近わたしたちが触ってるAIって、ほとんど「チャット画面の中の存在」だよね。文章を書いたり、コードを書いたり、画像を作ったり。でも今、その同じAIの技術が「物理世界で体を動かすロボット」のほうに一気に広がってきてるんだ。

先に大事な前置きをひとつ。今日の話には景気のいい市場予測がいっぱい出てくるんだけど、その手の数字はソースによって何倍も幅があるし、まだ「これから」の話が多いの。だからここでは、実際に発表された製品やモデルの事実 をベースに、複数プレイヤーを並べて中立に見ていくね。誇張も、未確認スペックの断定もしないよ。

今日のポイントはこの3つ。

  • Alibaba(Tongyi Lab)が、ロボット向け基盤モデル群 「Qwen-Robot Suite」 を発表(6/15〜18・パイロット段階)
  • でもこれはAlibaba単独じゃない。NVIDIA・Google DeepMind・Physical Intelligence などが同じ「身体性AI」を競ってる
  • 共通のキーワードは VLA(視覚-言語-行動)モデル世界モデル(world model)

「ロボティクス基盤モデルって何?」「なんで今いきなり来てるの?」っていうところを、考察記事2本でかみ砕いていくね。

🔥 1. Alibaba、ロボット向け基盤モデル群「Qwen-Robot Suite」を発表|3モデルで『ロボティクスのAndroid』標榜

まず今日のきっかけになったニュース。Alibabaの研究組織 Tongyi Lab が、6月15〜18日にかけて、ロボット向けの基盤モデル群 「Qwen-Robot Suite」 を発表したよ(The AI Insider・6月18日TechNode・6月17日)。

中身は3つのモデルで構成されてるんだ。

  • Qwen-RobotManip:物を掴む・動かす・操作する「Vision-Language-Action(VLA)」モデル。約38,000時間以上のロボットや人間の実演データで学習したとされてる
  • Qwen-RobotNav:自然言語の指示に従って移動したり、目標を追ったり、自動運転的なナビをこなす「Vision-Language-Navigation(VLN)」モデル
  • Qwen-RobotWorld:自分の行動の結果として環境がどう変わるかを予測する、動画ベースの「世界モデル(world model)」

Alibabaはこれを「自社初のフルなロボティクス・ソフトウェアスタック」と位置づけていて、報道では「ロボティクスのAndroid(=ハードではなくOSのほう)」という表現も使われてるよ(DecryptThe AI Insider)。Alibaba自身のコメントとして「見ること(vision)と実際に動くこと(acting)の間のギャップが、身体性知能の中心的なボトルネックだ」という趣旨の言葉も紹介されてるんだ。

ひとつ冷静に見ておきたいのは、これは現時点で Alibaba Cloudの一部の法人顧客とのパイロット段階 とされている点(TechNode)。「もう街中のロボットがこれで動いてる」という段階ではないからね。パラメータ数や公開(オープンウェイト)の有無といった細かいスペックは、今回確認できた一次・報道ソースには明記されていなかったから、ここでは載せないでおくね。

ソース: The AI Insider(6月18日)TechNode(6月17日)Decrypt

💡 考察記事

ロボティクス基盤モデルと世界モデルってなに?|AIが『体』を持つ仕組みをかみ砕く

記事を読む →

🔥 2. これはAlibabaだけじゃない|NVIDIA・Google DeepMind・Physical Intelligenceも『身体性AI』を競う

「AlibabaがロボットAI出した」だけ見ると一社の話に見えちゃうけど、実は身体性AIは 複数の有力プレイヤーが横並びで競っている分野 なんだ。確認できた範囲で並べてみるね。

  • NVIDIA:オープンなヒューマノイド向け基盤モデル「Isaac GR00T」シリーズを展開。GR00Tは画像と言葉を入力にして物を掴む・運ぶといった操作をこなすVLAモデルで、シミュレーションや推論用ハードまで含めた「フルスタック」で押し出してる(NVIDIA Newsroom
  • Google DeepMind:ロボット本体の上でローカルに動く「Gemini Robotics On-Device」を公開。ネット接続なしで指示に従い、服をたたむ・袋を開けるみたいな細かい作業をこなせるとしてる(Google DeepMind
  • Physical Intelligence(π):汎用のロボットポリシー「π0(パイゼロ)」を出しているスタートアップ。1つのモデルで複数の異なるロボットにまたがって、多数の操作タスクをこなせると主張してる(The Robot Report

おもしろいのは、各社のアプローチに 共通言語 があること。どこも「VLA(Vision-Language-Action=視覚・言語・行動を一体で扱うモデル)」と「世界モデル」を軸にしてるんだ。LLMが文章タスクをまたいで汎用化したように、1つのモデルでいろんなロボット・いろんな作業に汎用化させよう、という発想が共通してる。

ここでも誇張は避けるね。各社の最新バージョン名や台数・性能の細かい数字はソースごとに差があるし、まだ研究・パイロット段階のものも多いの。だから「どこが勝ってる」みたいな断定はしない。今日言えるのは「身体性AIは、もう一社の挑戦じゃなく、業界全体の競争テーマになってる」っていう構図のほうだよ。

ソース: NVIDIA Newsroom(Isaac GR00T)Google DeepMind(Gemini Robotics On-Device)The Robot Report(Physical Intelligence π0)

💡 考察記事

なぜ今『身体性AI』が来てるの?|製造・物流・家事、そして雇用と安全のリアル

記事を読む →

🔥 3. キーワードは『世界モデル』|AIが頭の中でシミュレーションしてから動く時代へ

3つ目は、今日いちばん大事な技術ワードの話。世界モデル(world model) だよ。

世界モデルって、ざっくり言うと「この行動をしたら、世界(環境)はこう変わるはず」をAIが頭の中で予測する仕組みのこと。人間で言えば、コップに手を伸ばす前に「ここを掴んだら倒れそうだな」って一瞬イメージするでしょ。あれをAIにやらせる、っていうイメージだね。

これが効くのは、ロボットが 実際に動く前に、頭の中で何通りも試せる ようになるから。失敗しそうな動きを物理的にやる前に「想像の中」で弾けるんだ。Alibabaの「Qwen-RobotWorld」も、NVIDIAやGoogleが進めてる世界モデルも、この発想が土台になってる(The AI Insider)。

なんでこれが「今」なのかというと、動画から物理の動き(摩擦とか物の落ち方とか)をそこそこの精度で学べるようになってきたから、っていうのが大きい。シミュレーション環境で大量に練習して、それを現実に持ち込む「sim-to-real」の流れも年々進んでるんだ。

だから身体性AIの話は、ロボットの「ガワ(ハード)」の話というより、その中で動く『頭脳(基盤モデル)』の話 なんだよね。ここを押さえておくと、これから出てくるロボットのニュースが一気に読みやすくなるよ。

ソース: The AI Insider(6月18日)NVIDIA Newsroom

💡 考察記事

ロボティクス基盤モデルと世界モデルってなに?|AIが『体』を持つ仕組みをかみ砕く

記事を読む →

今日の注目トレンド

今日のテーマは「身体性AI(Physical AI)=AIが画面の外に出てくる」っていう、大きな潮流だよ。

きっかけはAlibabaの「Qwen-Robot Suite」だったけど、今日いちばん伝えたかったのは「これは一社の話じゃない」っていうこと。NVIDIA、Google DeepMind、Physical Intelligenceみたいなプレイヤーが、それぞれのやり方で「1つの基盤モデルで、いろんなロボット・いろんな作業をこなす」を目指して走ってるんだ。

共通のキーワードは VLA(視覚-言語-行動)世界モデル。チャットAIが言葉の世界で汎用化したのと同じことを、今度は物理世界でやろうとしてる、というのが今の段階だね。

ただ、何度でも言うけど、市場規模やヒューマノイド普及台数の予測には大きな幅があって、誇大な数字も多いの。だから「もうすぐ家に1台ロボットが来る!」みたいな断定はしないでおくね。今は「研究・パイロットから実用への入り口」に立ってる、くらいの温度感が正確だと思う。

「ロボティクス基盤モデル・世界モデルって何?」を技術の面からかみ砕いた記事と、「なぜ今、身体性AIが来てるの? わたしたちの仕事や暮らしにどう関係するの?」を社会の面から見た記事、2本用意したよ。どっちも確認できた事実だけで、中立に書いたから、よかったら読んでみて。今日もおつかれさま。

よくある質問

Alibabaの「Qwen-Robot Suite」って何ですか?
Alibabaの研究組織Tongyi Labが2026年6月15〜18日に発表した、ロボット向けの基盤モデル群です。3つのモデルで構成され、物を掴む・動かすVision-Language-Action(VLA)モデルのQwen-RobotManip(約38,000時間以上のロボット・人間の実演データで学習)、自然言語の指示で移動・ナビゲーションするVision-Language-Navigation(VLN)モデルのQwen-RobotNav、行動の結果として環境がどう変わるかを予測する動画ベースの世界モデルQwen-RobotWorldがあります。Alibabaは自社初のフルなロボティクス・ソフトウェアスタックと位置づけ、報道では「ロボティクスのAndroid」という表現も使われました。現時点ではAlibaba Cloudの一部の法人顧客とのパイロット段階とされています(出典: The AI Insider・6月18日、TechNode・6月17日)。
身体性AI(Physical AI/embodied AI)はAlibaba1社だけの動きですか?
いいえ。複数の有力プレイヤーが競う分野です。確認できた範囲では、NVIDIAがオープンなヒューマノイド基盤モデルのIsaac GR00Tシリーズを、Google DeepMindがロボット本体上でローカル動作するGemini Robotics On-Deviceを、スタートアップのPhysical Intelligenceが汎用ロボットポリシーπ0(パイゼロ)を出しています。各社に共通するのは、VLA(視覚・言語・行動を一体で扱うモデル)と世界モデルを軸にしている点です。ただし最新バージョン名や性能の細かい数字はソースごとに差があり、研究・パイロット段階のものも多いため、特定の企業が優位だと断定はできません(出典: NVIDIA Newsroom、Google DeepMind、The Robot Report)。
「世界モデル(world model)」とは何ですか?
世界モデルとは、ある行動をしたら環境(世界)がどう変化するかをAIが予測する仕組みのことです。ロボットが実際に動く前に、頭の中で複数の行動を試し、結果を予測してから実行できるようになります。人間がコップに手を伸ばす前に「倒れそうだ」と一瞬イメージするのに近い発想です。これにより、失敗しそうな動きを物理的に行う前に避けられます。AlibabaのQwen-RobotWorldをはじめ、NVIDIAやGoogleが進める身体性AIの多くがこの考え方を土台にしています。動画から物理の動き(摩擦や物の落ち方など)を学べるようになってきたこと、シミュレーションで大量に練習して現実へ持ち込むsim-to-realが進んだことが、今この技術が注目される背景です(出典: The AI Insider・6月18日、NVIDIA Newsroom)。