AIが「手を動かす」時代へ｜NVIDIA ENPIREが工場とものづくりに効く理由

アイ

2026-06-18

いつものコーディングAIが、ついに『手を動かす』側に回った

ねえ、これヤバくない?って正直びっくりしたニュースがあるんだ。

2026年6月17日、NVIDIAが「ENPIRE」っていう研究システムを発表したの。ざっくり言うと、わたしたちエンジニアが普段使ってるAIコーディングエージェントに、本物のロボットを自分で訓練させちゃうっていう仕組みなんだよね（NVIDIA GEAR Lab）。

しかもこれ、シミュレーションの中じゃなくて、実際の物理ロボットでやってるのがポイント。コードを書くだけだったAIが、現実世界で手を動かす作業を覚えはじめたってこと。

ここまで読んで「で、それがわたしの生活に何の関係があるの?」って思うかもしれない。でもね、ENPIREが狙ってるのは、まさに人間が手でやってきた仕事なんだ。GPUを基板に挿したり、細かいピンを並べたり、結束バンドを切ったり。倉庫や工場で人がやってるような作業だよね。

その精密な手作業を、わたしたちがチャットで指示を出してるのと同じタイプのAIが覚えていく。つまり、これまで「ホワイトカラーの仕事がAIに置きかわる」って言われてた流れの、もう一歩先の話なんだよね。

作ったのはNVIDIAのGEAR Labと、カーネギーメロン大学、それにUCバークレーのチーム。大学とトップ企業が組んだ、けっこうガチな研究なんだよね。

わたしは普段からClaude CodeとかCodexにコードを書いてもらってるんだけど、まさかその延長線で「ロボットに手作業を仕込む」話が出てくるとは思わなかった。デジタルの中の道具だと思ってたものが、いつのまにか現実の作業台の前に立ってたって感じ。

今日はこのENPIREが、なんで工場やものづくり、そしてわたしたちの仕事に効いてくるのかを、3つの理由でやさしく深掘りしていくね。途中で「これはまだ無理」っていう正直な弱点の話も、ちゃんと隠さずに書くから安心して読んでみて。

そう考える3つの理由

画面の中じゃなく『本物のロボット』で研究を回しきった

まず一番すごいと思ったのが、ENPIREは実機のロボットで研究のループを丸ごと回しきった世界初のシステムだってこと。

これまでのロボットAIって、基本はシミュレーション、つまりパソコンの中の仮想空間で練習させるのが主流だったんだ。仮想空間なら何回失敗してもタダだし、時間も自由に早送りできるからね。

でもENPIREのAIは、現実の作業をぜんぶ自分でやるんだよ。ここが今までと決定的に違うところ。

具体的には、シーンをリセットして、ロボットで実際に試して、結果を確認して、論文を読んで、うまくいくまで自分の訓練コードを書き換える。この一連の流れを人間じゃなくてAIが回すの（NVIDIA GEAR Lab）。

これって言いかえると、研究者がやってる仕事そのものなんだよね。実験して、ダメだった原因を考えて、論文で調べて、やり方を直してまた実験する。その研究のループをまるごとAIが担当するっていう発想なの。

特にわたしがゾクっとしたのは、ロボットがシーンをリセットするって部分。失敗したら散らかった現場を自分で片づけて、もう一回最初から試す。人間の手を借りずに何度でもやり直せるってことだよね。

それと、論文を読むっていうのも地味にすごい。AIが自分で関連する研究を調べて、その知識を訓練に活かす。新人エンジニアが先輩のドキュメントを読み込んで成長していくのと、やってることはほぼ同じなんだ。

仕組みは4つのモジュールでできてる。環境（Environment）、方策の改善（Policy Improvement）、実行（Rollout）、進化（Evolution）。環境を整えて、賢いやり方に直して、実際に動かして、その結果でまた進化する。この4つがぐるぐる噛み合って、ロボットがどんどん上達していくイメージだね。

世間では「AIって結局、画面の中だけの話でしょ」って思われがち。たしかにこれまでのAIの華々しい成果って、文章を書くとか画像を作るとか、デジタルの中で完結する話が多かったもんね。

でもわたしが面白いと思うのは、ENPIREが扱ってる作業がガチで物理的で精密なところ。GPUをマザーボードに挿す、ピンを整理する、結束バンドを切る、こういう細かい手作業で99%の成功率を出してるんだ。

99%ってどれくらいかというと、100回やって99回成功するってこと。ほぼ外さないレベルだよね。しかもこれ、データの集計みたいなデジタル作業じゃなくて、指先のミリ単位がものを言う物理作業での話なんだ。

GPUをマザーボードに挿すって、人間でも手が震えると失敗するやつだよね笑。それを99%で決めてくるって、もう「画面の中だけ」の段階はとっくに超えてると思う。だから工場の組み立てとか電子機器の製造みたいな現場に、現実味を持って効いてくる話なんだよ。

ロボットを増やすほど、習得スピードが上がっていく

2つめの理由は、ロボットの数を増やすほど作業を覚えるのが速くなるって結果が出たこと。これ、地味だけどめちゃくちゃ大事なんだ。

ENPIREは1体、4体、8体のロボットの群れでテストしたの。そしたら、台数を増やすほど習得にかかる時間がちゃんと短くなったんだよね。

たとえば「Push-T」っていう、T字の物体を押して決まった位置に動かす作業。簡単そうに聞こえるけど、押す力加減とか角度がシビアで、ロボットには意外とむずかしい課題なんだ。

このPush-Tを習得するまでの時間が、1体だと約5時間かかってたのが、8体だと約2時間まで縮まったんだ（NVIDIA GEAR Lab）。5時間が2時間って、半分以下だよね。

ピンを挿す作業も同じ傾向。1体だと90分以上かかってたのが、8体だと約40分。こっちも半分以下になってる。数を増やすほど、みんなで手分けして経験を持ち寄るから速くなる、っていうわかりやすい話なんだ。

イメージとしては、1人で全部の試行錯誤をやるより、8人で手分けして「自分はここ試すね」「わたしはこっち」ってやったほうが速いよね。あれのロボット版だと思うと腑に落ちるかな。

しかもただ単に並列で作業するだけじゃなくて、それぞれが得た経験を持ち寄って全体が賢くなっていくのが大事なところ。1体が見つけたコツを8体ぜんぶで共有できるなら、そりゃ速くなるよね。

ここで思い出してほしいのが、Push-Tはシミュレーションでは解けたけど実機ではつまずいた課題だってこと。その難しい課題でさえ、台数を増やせば実機の習得時間がちゃんと縮んだっていうのが、地味だけどすごく希望のある結果なんだ。

NVIDIAのJim Fanさんは、8体のCodexエージェントに、ロボットの群れとGPUの割り当て、それにトークンの予算を渡して、自分たちで改善させていくっていう実験を説明してたの。AIに「人手と機材と予算」を渡して放牧するみたいな感覚、ちょっと近未来すぎない?

このトークンの予算っていうのが個人的にツボで、AIにも「使えるリソースには限りがあるよ、その中でうまくやってね」っていう制約を与えてるってことなんだよね。なんだか新人にプロジェクトを任せるときの感覚に近くて、ちょっと笑っちゃった。

世間では「ロボットの自動化って、結局すごく時間とコストがかかるんでしょ」って見られがち。実際、新しい作業を1つ覚えさせるのに専門家が何週間もかける、みたいなイメージあるよね。

でもわたしは、この台数で時間が縮むっていう性質がすごく効いてくると思ってる。なぜなら、お金をかけてロボットを増やせば、その分だけ作業の習得が速く回るってことだから。これって倉庫の仕分けとか組み立てラインみたいに、数で勝負する現場とめちゃくちゃ相性がいいんだよね。

たとえば新しい製品の組み立てラインを立ち上げるとき、これまでは熟練の人が試行錯誤しながらやり方を固めていく必要があった。それがロボットの群れに任せられるなら、立ち上げのスピードが変わってくるよね。

しかも「ロボットを増やす」っていうのは、お金さえ用意できればスケールしやすい。人を一気に8人雇って育てるより、同じ仕組みのロボットを8体並べるほうが、会社からするとコントロールしやすい部分もあると思うんだ。だからこの性質、製造業にとってはかなり魅力的に映るはずだよ。

でも、まだ魔法じゃない（3体中2体が実機で失敗した話）

ここまで「すごい」を連発してきたけど、正直に言うね。ENPIREはまだ魔法じゃないんだ。ここ、ちゃんと押さえておきたいところ。

ENPIREでは3つのエージェントを試してる。GPT-5.5で動くCodex、Opus 4.7で動くClaude Code、Kimi K2.6で動くKimi Code。名前を聞くと、まさにわたしたちが普段触ってるやつらだよね。

しかも全部、世代の新しいフロンティアモデル。今いちばん賢いとされてる子たちを集めて勝負させたわけだから、結果には説得力があるんだ。

で、ここが大事。さっきのPush-Tっていう作業、3体ともシミュレーションの中ではちゃんと解けたの。画面の中では全員クリアしたってこと。

ところが、本物のロボットでやらせたら、3体のうち2体が失敗しちゃったんだ（NVIDIA GEAR Lab）。シミュレーションでできてたことが、現実だとできない。これがいわゆる「sim-to-realギャップ」ってやつ。

原因は現実世界ならではの厄介さ。摩擦の効き方とか、センサーのノイズとか、思った通りにいかない物理現象とか。仮想空間ではきれいに無視できてたものが、現実だと全部のしかかってくるんだよね。

これ、わたしたちの日常でもあるあるじゃない?頭の中ではできるイメージなのに、いざ手を動かすと全然うまくいかない、みたいな。AIも同じで、計算上の正解と、現実で手を動かした結果はけっこうズレるってことなんだ。

しかも面白いのが、3体ともシミュレーションでは解けたのに、実機での結果は割れたってところ。同じ課題でも、現実に持ち出した瞬間に得意不得意が出る。シミュレーションの成績だけ見て「どのAIも同じくらい優秀」って判断したら危ない、ってことを示してるんだよね。

だから企業がこういうAIを導入するときも、デモ映像のキレイな成功例だけで判断しちゃダメってこと。自分の現場の本物の環境で、ちゃんと試してから入れる必要があるんだ。

世間では「AIがロボットを訓練できるなら、もう人間いらないじゃん」って一足飛びに考えがち。気持ちはわかる、わたしも最初の見出しだけ見たときそう思ったもん。

でもわたしは、この「2体が実機で失敗した」事実こそ正直で信頼できると思ってる。なぜなら、現実はシミュレーションみたいに甘くないってことを、研究チーム自身がちゃんと見せてるから。都合のいい成功だけを並べてないのが、逆に信用できるんだよね。

そもそも、このギャップがあるからこそENPIREみたいな仕組みが必要なんだって話でもあるの。現実で失敗するのを前提にして、その失敗から自分で学び直すように設計されてるってことだから。

だから、明日いきなり工場が全部ロボットになるわけじゃない。過度に怖がる必要も、過度に期待しすぎる必要もないと思う。

でも、現実で失敗しながら自分でコードを直して学び続ける仕組みができたっていうのは、ギャップを埋める第一歩としてめちゃくちゃ大きいと思う。今は2体が失敗してても、この学び直しを回し続けたら、成功率はどんどん上がっていくはずだからね。

逆に言うと、わたしたちにとっての安心材料でもあるんだ。AIが現実の手作業を完璧にこなすには、まだ越えなきゃいけない壁がいくつもある。だから「明日にも仕事がなくなる」みたいに焦る必要はないってこと。

大事なのは、この技術がどっちの方向に進んでるかを知っておくこと。今は失敗もするけど、自分で学び直す仕組みを手に入れたAIが、現実の物理作業に本気で挑みはじめた。その事実だけは、頭の片隅に置いておこうね。

まとめ：わたしたちが使ってるAIが、工場の手作業を覚えはじめた

ENPIREの何がすごいって、わたしたちソフトウェアエンジニアが毎日使ってるコーディングAIが、そのまま物理的な手作業に向けられたってことなんだ。

実機で研究ループを丸ごと回しきって、GPU挿しやピン整理で99%の成功率。台数を増やせば習得時間も縮む。一方で3体中2体が実機で失敗するっていう現実の壁もちゃんと残ってる。期待と課題、両方がそろってるからこそ信用できるニュースだなって思う。

だから倉庫、組み立て、電子機器の製造みたいな手作業の現場は、これから少しずつ変わっていくはず。今すぐ全部が置きかわるわけじゃないけど、「ここはロボットが覚えられそう」っていう作業から、じわじわ自動化が進んでいく流れだと思うんだ。

怖がりすぎなくて大丈夫だけど、「AIはもう画面の外でも手を動かしはじめた」っていう感覚だけは、いまのうちに持っておくといいと思うよ。わたしたちが毎日コードを頼んでるあの子たちが、現実のものづくりにも手を伸ばしはじめた。そう思うと、ちょっとワクワクしてこない?

関連記事: AIコーディングツール比較

ソース:

ENPIRE（NVIDIA GEAR Lab）