🖱️ 『Computer Use』ってつまり何?AIがPCを操作する時代を、ニュースより一歩やさしく解説するよ

アイ
目次
- 「AIが自分でPCを操作する」って、結局わたしたちに何が変わるの?
- そう考える3つの理由
- 理由1:Computer Useは「文章を書くAI」とは別物の進化だよ
- 理由2:Gemini・GPT・Claudeが0.3ポイント差=もう横並びの競争
- 理由3:操作機能が「安くて速いモデル」に乗ったことの意味
- そもそもOSWorldの「78.4」って、どれくらいすごい数字なの?
- 「自己申告のスコア」を、わたしたちはどう読めばいいの?
- まとめ:順位より「AIの役割が変わった」って事実を持って帰ろう
「AIが自分でPCを操作する」って、結局わたしたちに何が変わるの?
お昼にニュースを見てたら、「GoogleがGemini 3.5 FlashにComputer Useを搭載」 っていう見出しが流れてきたの。正直、最初は「コンピュータユース?なんか難しそう」って思った。
でも中身を読んでみたら、これけっこう生活に近い話だったんだよね。ざっくり言うと、AIが自分でパソコンやスマホの画面を見て、かわりに操作してくれる 機能が、普段使いのモデルに入ったよ、という話。
これまでのAIって、基本「言葉のキャッチボール」だったよね。質問したら文章で返してくれる。すごく賢い相談相手、みたいな。でもComputer Useは、そこから一歩進んで、「じゃあ実際にブラウザ開いて、ポチポチやっといて」 ができる方向に動き出したの。
わたしが「これ面白いな」と思ったのは、AIの役割そのものが変わりかけてるところ。「答えてくれる人」から「手を動かしてくれる人」へ ——この違い、地味だけどけっこう大きいと思うんだよね。
今日は、このComputer Useって何なのか、そしてニュースで話題の「78.4」という数字をどう読めばいいのかを、3つの理由で一緒に整理していくね。難しい言葉はなるべく噛み砕くから、ついてきて。
そう考える3つの理由
理由1:Computer Useは「文章を書くAI」とは別物の進化だよ
まず、ここを押さえたいの。Computer Useは、これまでの「文章がうまくなるAI」とは、進化の方向がちょっと違う ってこと。
世間では「またAIが賢くなった話でしょ?」ってまとめられがち。気持ちはわかる。新しいモデルが出るたびに「賢くなりました」「速くなりました」って言われるから、ちょっと食傷気味だよね。
でもわたしは、Computer Useは別ジャンルの進化だと思ってるの。なぜなら、賢くなる方向じゃなくて、「実際に手を動かせるようになる」方向 だから。
報道によると、今回のGemini 3.5 FlashのComputer Useは、ブラウザ・モバイル・デスクトップという3つの環境を横断して、画面を認識して操作できる とされてるよ(digitalapplied(6月24日発表・6月26日記事))。画面を「見て」、どこを押せばいいか「考えて」、実際に「操作する」。この一連の動きを、AIが自分でやるんだ。
たとえるなら、これまでのAIが「レシピを教えてくれる人」だったとしたら、Computer Useは「キッチンに立って実際に作ってくれる人」に近い。教えてもらうのと、やってもらうのって、ぜんぜん体験が違うよね。
だから、Computer Useのニュースを「また賢くなったのね」でスルーしちゃうと、ちょっともったいないの。これは 「AIに何を任せられるか」の範囲が広がる 話だから、自分の生活の中で「あの面倒な作業、任せられるかも?」って想像してみると、グッと自分ごとになると思うよ。
理由2:Gemini・GPT・Claudeが0.3ポイント差=もう横並びの競争
2つ目が、今日いちばん面白いところ。AIにPCを操作させる競争で、主要3社がほぼ横並びになった って話だよ。
AIがどれくらいPCをうまく操作できるかを測るテストに、OSWorld-Verified っていうベンチマークがあるの。実際のパソコン環境で「この作業やっといて」ってお題を出して、ちゃんとこなせたかを点数にするやつ。
で、今回報じられたスコアがこれ。
- GPT-5.5:78.7
- Gemini 3.5 Flash:78.4
- Claude Opus 4.7:78.0
見てよこれ、トップから最下位まで たった0.3ポイント差 。もう誤差の世界だよね。独立系の報道でも「実質的な同点」「三つ巴」って表現されてるの(digitalapplied)。
世間では新しいモデルが出るたびに「〇〇がトップ!」「△△を抜いた!」って盛り上がるよね。でもわたしは、この0.3ポイント差を見て逆に思ったの。「もう、どこが1位とか言ってる場合じゃないな」 って。
なぜかというと、3社がこれだけ団子状態だと、「どのAIを選んでも、操作の実力はだいたい同じ」 っていう時代に入りつつあるから。そうなると、選ぶ基準は単純な強さじゃなくて、値段とか、使いやすさとか、安全への配慮とか、別のところに移っていくんだよね。
これって、わたしたち使う側にとってはむしろ良いことだと思うの。1社が独走すると値段も強気になりがちだけど、横並びで競ってくれると、各社が「うちは安いよ」「うちは安全だよ」って工夫してくれる。だから「三つ巴」っていうのは、わたしたちが選びやすくなるサイン でもあるって、前向きに見てるよ。
理由3:操作機能が「安くて速いモデル」に乗ったことの意味
3つ目は、ちょっと地味だけど効いてくる話。今回のComputer Useが乗ったのが、Gemini 3.5 Flashという「安くて速い」のが売りのモデル だった、ってこと。
これ、最初はスルーしそうになったんだけど、よく考えると大事なポイントなの。
報じられている料金は、入力が100万トークンあたり1.50ドル、出力が9.00ドル。報道によると、これはGPT-5.5(入力5ドル・出力30ドル)の およそ30%、ざっくり3分の1 の水準なんだって(digitalapplied)。
なんでこれが大事かっていうと、AIにPCを操作させるのって、すごく手数を食う からなんだよね。画面を見て、考えて、操作して、また画面を見て……をずーっとくり返すから、文章を1回書いてもらうのとは比べものにならないくらい処理がかさむ。
世間では「安いモデル=性能が低い」って思われがち。確かにそういう面もある。でもわたしは、操作系のAIに関しては 「そこそこの賢さで、安くたくさん動ける」ことの価値はすごく大きい と思ってるの。
だって、AIにPC操作を任せるって、1回ポンと使って終わりじゃないでしょ。「毎朝この作業」「毎回この入力」みたいに、くり返し使ってこそ便利なはず。そうなると、1回あたりのコストが安いことが、そのまま「実際に使えるかどうか」に直結するんだよね。
だから今回、操作機能が高級モデルじゃなくて手頃なモデルに乗ったのは、「すごい技術を見せる」段階から「日常で使ってもらう」段階に寄せてきた サインかなって、わたしは読んでるよ。もちろん「安い=いちばん賢い」ではないから、そこは混同しないでね。
そもそもOSWorldの「78.4」って、どれくらいすごい数字なの?
ここでちょっと立ち止まって、「78.4って結局すごいの?すごくないの?」っていう素朴な疑問に答えておくね。
まず、OSWorld-Verifiedは 100点満点で、実際のPC作業をどれくらいこなせたかの割合 みたいなイメージ。78.4だと、ざっくり「お題の8割くらいはこなせる」 という感じだね。
これ、数字だけ見ると「8割もできるの、すごい!」って思うかもしれない。確かに、ちょっと前まではAIにPC操作なんてまともにできなかったことを思うと、すごい進歩なの。
でも逆に言うと、まだ2割くらいは失敗する ってことでもあるんだよね。ここ、すごく大事。8割成功って聞くとつい「ほぼ完璧」って思っちゃうけど、5回に1回コケるって、実際に任せる側からするとけっこう不安だよね。お金がからむ操作で5回に1回ミスられたら困るもん。
だからわたしは、78.4という数字を 「だいぶ実用に近づいたけど、まだ全部おまかせには早い」ライン として読んでるの。すごいのは本当。でも「完璧」とはぜんぜん違う。この温度感を持っておくと、過剰な期待でガッカリすることも、逆に「どうせまだ使えない」って切り捨てることもなくなると思う。
そしてもうひとつ大事なのが、この数字が どう測られたか 。次でそこを見ていくね。
「自己申告のスコア」を、わたしたちはどう読めばいいの?
ここが今日いちばん念押ししたいところ。OSWorld-Verifiedのスコアは、どれも各社が自分で測って発表した「自己申告」の数字 なの。
報道もハッキリ書いてるよ。「ボード上のスコアはすべてモデル提供元の自己申告で、2026年6月時点で独立した第三者による検証はない」って(digitalapplied)。
これ、わかりやすくたとえるね。学校のテストって、先生が同じ問題で同じ条件で採点するから、点数を比べられるよね。でも今回のスコアは、各社が「うちで測ったらこの点でした」って自己採点を持ち寄ってる 状態に近いの。
世間では、こういうベンチマークの数字を「公式記録」みたいに受け取って、「GPTが1位!」「Geminiが負けた!」って盛り上がりがち。でもわたしは、自己申告の数字でそこまで細かく順位づけするのは危ないと思ってるの。
なぜなら、測り方や条件が各社で微妙に違うかもしれないし、有利な条件で測って良い数字を出すこともできちゃうから。べつに「どこかが嘘をついてる」って言いたいわけじゃないよ。ただ、第三者がそろえた条件で測ったものじゃない以上、0.3ポイントの差に意味を持たせすぎないほうがいい ってこと。
じゃあどう読むのが正解かというと、わたしのおすすめはこう。細かい順位は気にせず、「3社とも8割前後で、横並びに競ってる」という大きな絵だけ持ち帰る 。これくらいの解像度がちょうどいいと思うの。
ちなみに、各社の得意・不得意をもっとフラットに知りたいなら、実際に使い分けてる目線でまとめたChatGPT・Gemini・Claudeの比較記事 が参考になると思う。ベンチの点数だけじゃ見えない「使い心地」の話も載せてるよ。
3社が横並びになると、わたしたちには何が起きるの?
ここまで「三つ巴」「横並び」って言ってきたけど、「で、それがわたしに何の関係があるの?」って思うよね。だからこの章で、その先を考えてみたいの。
これまでのAIって、わりと「どこが一番賢いか」で語られてきたよね。新しいモデルが出るたびに「○○が最強!」って。で、最強っぽいところに人気もお金も集まる、という構図だった。
でも、操作系のAIで3社が0.3ポイント差まで詰まってくると、その構図がちょっと崩れるの。「どれを選んでも操作の実力はだいたい同じ」 なら、わたしたちが選ぶ基準は「強さ」じゃなくなるんだよね。
じゃあ何で選ぶことになるか。わたしが思うに、たぶんこの3つに移っていくの。
ひとつめは 値段 。今回みたいに、同じくらいの実力なら安いほうがうれしいに決まってるよね。実際、Gemini 3.5 Flashは他社の3分の1くらいの料金とも報じられてる(digitalapplied)。横並びだからこそ、価格が効いてくる。
ふたつめは 使いやすさ・なじみやすさ 。普段GmailやGoogleカレンダーを使ってる人ならGemini、iPhoneやMacにべったりな人なら別の選択肢、みたいに、自分が普段いる環境とのなじみ で選ぶ流れになりそう。操作AIって、結局その人のデジタル生活の中で動くものだから、ここはけっこう大きいと思う。
みっつめは 安全への配慮 。AIにPCを操作させるって、便利な反面リスクもある。だから「どれだけ安全に配慮してるか」「変な操作を止める仕組みがあるか」が、これから選ぶときの大事なポイントになると思うの。このあたりは別記事のリスクの話とつながるよ。
世間では「結局どれが一番なの?」って白黒つけたがるけど、わたしは 「もう"一番"を決める時代じゃないのかも」 って思ってるの。横並びって、使う側からすると「自分に合うものを選べる」っていう、むしろ幸せな状態だからね。だから次にAIを選ぶときは、ベンチの点数より「自分の生活に合うか」で見てみるのがいいと思うよ。
まとめ:順位より「AIの役割が変わった」って事実を持って帰ろう
長くなったから、ぎゅっとまとめるね。
- GoogleがGemini 3.5 Flashに Computer Use を搭載。AIがブラウザ・モバイル・デスクトップを横断して操作できるように(6月24日、一般プレビュー)
- これは「文章がうまくなる」進化とは別物で、AIが実際に手を動かす 方向の進化
- OSWorld-VerifiedのスコアはGPT-5.5が78.7、Gemini 3.5 Flashが78.4、Claude Opus 4.7が78.0で 0.3ポイント差の三つ巴
- 操作機能が 安くて速いモデル に乗ったことで、日常使いに寄ってきた
- ⚠️ ただし スコアは全社の自己申告で第三者検証なし。順位づけは額面どおりに受け取らない
わたしが今日いちばん持って帰ってほしいのは、「どこが1位か」より、「AIの役割が"答える"から"操作する"へ広がった」 という大きな変化のほう。
数字は続報でいくらでも変わるし、来月には順位が入れ替わってるかもしれない。でも「AIにPCを任せる時代が近づいてる」っていう方向性は、たぶんしばらく変わらないと思う。
そう思って、自分の生活の中の「あの面倒な作業」を思い浮かべてみると、Computer Useのニュースがちょっと自分ごとに見えてくるはず。ただし、任せる前にリスクの話も知っておいてね。そこは別記事でじっくり書いたよ。
関連記事: ChatGPT・Gemini・Claudeを業務で使い分けた感想 / AIエージェントってどこまで実用化された?現在地まとめ
ソース: