👁️ 「ビデオを見てPCを操作するAI」がついに来る|Standard Intelligence $75Mの意味

アイ
目次
AdeptがAmazonに消えた後、ビデオ操作AIは死んでいなかった
2024年8月、Adept AIっていう「ビデオを見て、人間の代わりにPCを操作するAI」を作ってたスタートアップが、Amazonに reverse-acquihireされた。これは「80%の社員はAmazonに採用、技術はライセンス、会社は形式的に残す」っていう独禁法回避型の買収で、業界では「Adeptは事実上消滅した」と言われてた。
そこから1年半、「ビデオ操作AI」っていうカテゴリは、Anthropic Computer Use、OpenAI Operator、Google Project Marinerっていうメガラボの機能として吸収された。専業スタートアップは死んだように見えてた。
ところが、2026年5月、シアトルのStandard Intelligenceが**$75M**を、Sequoia Capital + Spark Capital主導で調達。「ビデオを見てソフトウェアを操作することを学ぶ専用foundation model」を開発する、と明言した。
mean.ceoのまとめによると、Standard IntelligenceはAdeptの技術的ゴールを継承しつつ、foundation modelとしての汎用化を目指してる。Adept消滅後の空白に、新たな挑戦者が現れた、っていう構図。
そう考える4つの理由
理由1:「ビデオでPC操作」はAdept ACT-1が起点だった
「ビデオ操作AI」のルーツって、Adept ACT-1(2022年)。当時はGPT-3.5の時代で、Adeptは「LLMにマウス・キーボードを使わせる」っていう先駆的な試みをやってた。
具体的には、ACT-1は画面のスクリーンショットを見て、「ここをクリック」「この欄に入力」っていう操作を生成する。当時はまだ精度が低くて実用化には至らなかったけど、コンセプトとしては超先進的だった。
Semaforの記事によると、Amazonは2024年にAdeptの80%の社員を採用、技術はライセンスして、Adept自体は形式的に残った。投資家には資金が払い戻された。これは、Inflection→Microsoft、Character.AI→Googleと並ぶ、reverse acquihireの典型例。
Standard Intelligenceは、このAdeptが残した「ビデオ操作AI」の空白を、**新世代の foundation model(GPT-5やClaude 4世代)**を使って埋めにきた。3年前なら無理だった精度が、今ならできる、っていうタイミング。
技術的には、Multi-modal foundation model(画像+テキスト)+強化学習+video temporal modelingの組み合わせ。Stanford系AI研究の標準ツールキットで作れるようになった。
理由2:Anthropic Computer Use/OpenAI Operatorと違う独立スタートアップ路線
「ビデオでPCを操作するAI」っていう領域は、もうメガラボが手を出してる:
- Anthropic Computer Use: 2024年10月発表、Claude が画面を見てPC操作
- OpenAI Operator: 2025年1月発表、ChatGPT Pro向けの自律エージェント
- Google Project Mariner: 2025年12月、ブラウザ自動化エージェント
これらに対して、Standard Intelligenceは専業スタートアップとして独立路線を取る。これが何を意味するかというと:
- 特定ドメインに最適化できる(金融、医療、法務みたいな業界特化)
- 自社foundation modelを軽量化できる(メガラボより低コスト)
- オンプレ展開ができる(メガラボのクラウドAPI依存から脱却)
メガラボのComputer Use系は「汎用=特定業務に最適化されてない」「クラウド依存」「データ送信が必要」っていう弱点がある。Standard Intelligenceは、エンタープライズの「データを外に出したくない」ニーズに応える可能性が高い。
これはHippocratic AI(医療向け)、Harvey(法律向け)、Sierra(カスタマーサポート向け)のように、業界特化AIエージェントの流れの延長線上。汎用foundation modelじゃなくて、業界 + 操作foundation modelっていう二軸で勝負する戦略が見えてくる。
理由3:Sequoia + Sparkが主導した時点で「本気の調達」
$75Mっていう調達額自体はAIスタートアップとしては中規模だけど、Sequoia Capital + Spark Capitalが主導したっていう事実が重要。
Sequoiaは近年、AIエージェント領域でSierra(Bret Taylor)、Harvey、Glean、Notion AIみたいな大型勝ち馬を連発してる。彼らが「ビデオ操作AI」の専業スタートアップにまた賭けたってことは、**「Computer Useはメガラボに飲まれず、専業スタートアップで成立する」**って読み筋を持ってる、ってこと。
Spark CapitalはSlack、Twitter、DoorDashを初期から支援した実績があって、最近はAnthropicにも投資してる。AI領域での目利きはトップクラス。
両者が組んでリードしたStandard Intelligenceは、業界が「これは実用化のフェーズに入った」と判断したシグナル。Adeptが2022年にHEAD的に出した時とは、技術成熟度が違う。
Tech Startupsのまとめを見ると、5月の調達は「インフラ・防衛・実世界システム」に資金が向かってて、Standard Intelligenceは「実世界システム=企業のPC操作自動化」のカテゴリ。
シアトル拠点っていうのも面白くて、MicrosoftとAmazonの エンジニアがアクセスしやすい立地。これらメガテック出身の優秀な人材を採用しやすいので、チームの質が高い前提で投資された可能性が高い。
理由4:RPA市場($30B)を foundation modelで丸ごと取りにいく
「ビデオでPC操作AI」の本当のターゲットは、RPA(Robotic Process Automation)市場。これは現在約$30B規模で、UiPath(時価総額$5B〜)、Automation Anywhere、Blue Prism等が支配してる。
従来のRPAって、「画面のここをクリック、ここに入力」っていうルールを人間がプログラミングする方式。動作は速いし安定だけど、画面が変わると壊れる、ルール作成に時間かかるっていう弱点があった。
これを foundation model が解決する。
- 画面が変わっても: AIがその場で適応する
- ルール作成不要: 人間が「請求書を処理して」と言えばOK
- 業務プロセス変更に追従: AIが新しいパターンを学習する
つまり、RPA市場を、foundation modelで根こそぎ書き換えるっていうのが、Standard Intelligenceの実質的な賭け。
UiPath系の従来RPAは、5〜10年で foundation modelベースのAIエージェントに置き換わる可能性が高い。これって、SaaS市場でいうと「オンプレ → クラウド」のシフトに相当する規模の変化。
具体的に置き換わるのは、銀行の事務処理、保険の引受審査、医療の保険請求、HR の採用書類処理、税務の申告作業、みたいなホワイトカラー業務全般。これらを「人間の代わりにAIがやる」フェーズが、5年以内に来る。
まとめ:ホワイトカラー業務の自動化、第二章
Standard Intelligence $75Mで言える結論は、「ホワイトカラー業務の自動化が、第二章に入った」っていうこと。第一章はRPA(ルールベース)、第二章はfoundation modelベースのAIエージェント。
わたしたちにとっては、これは働き方の根本変化を意味する。経理、HR、法務、カスタマーサポート、コールセンターみたいな**「定型ホワイトカラー」**は、向こう5〜10年でAIエージェントに置き換わる確率が極めて高い。
逆に、戦略立案、創造的問題解決、人間関係調整、複雑な判断は人間の領域として残る。だから今後のキャリア設計は、「AIに置き換えられる領域」じゃなくて「AIで増幅できる領域」を選ぶのが大事。
学生さんや若手社会人は、Standard IntelligenceみたいなAIエージェントスタートアップを注視しておくと、就職先・転職先の選択肢になる。Adeptが消えたカテゴリに、また新しい挑戦者が出てきたっていう事実は、AIエージェント領域がまだまだ動くって証拠。
あわせて読みたい
- Runway Gen-4 May 2026|世界一貫性ワークフロー戦争
- Cartesia Sonic 3 $100M|90ms / 42言語の音声AI
- Suno Series D $5B|音楽AIユニコーン誕生
- Anthropic Claude Managed Agents Enterprise Beta
- Microsoft Agent 365 GA|Shadow Agent対策
ソース:
- Top Startup and Tech Funding News May 5(Tech Startups, 2026記事)
- AI Startup Funding News May 2026(mean.ceo)
- Investors in Adept AI will be paid back after Amazon hires startups top talent(Semafor, 2024-08-02)
- Amazons Adept Acquisition Sparks Reverse Acquihire Trend(CO/AI)
よくある質問
- Standard Intelligenceとはどんな会社?
- シアトル拠点のAI新興企業で、ビデオを見てソフトウェアを操作することを学ぶ専用foundation modelを開発する。2026年5月にSequoia CapitalとSpark Capital主導で$75Mを調達した。Adept(Amazonに2024年reverse-acquihire)が残した領域を継承する独立スタートアップ。
- Anthropic Computer UseとOpenAI Operatorとの違いは?
- Standard Intelligenceは独立スタートアップとして特定ドメイン最適化、自社foundation modelの軽量化、オンプレ展開を目指す。一方メガラボのComputer Use系は汎用・クラウド依存・データ送信前提で、エンタープライズの「データを外に出したくない」ニーズには応えづらい。
- なぜAdept ACT-1のコンセプトが今復活した?
- 2022年のAdept ACT-1はGPT-3.5世代では精度が不足していたが、2025〜26年のGPT-5やClaude 4世代のmulti-modal foundation modelで実用化が現実的になった。Multi-modal+強化学習+video temporal modelingの組み合わせがStanford系AI研究の標準ツールキットで可能。
- foundation modelはRPA市場をどう変える?
- 従来RPA(UiPath、Automation Anywhere等の$30B市場)はルールベースで画面変化に脆弱だが、foundation modelベースのAIエージェントは画面変化に適応・ルール作成不要・業務プロセス変更に追従する。5〜10年でホワイトカラー業務全般(経理、HR、法務、カスタマーサポート)を置き換える可能性が高い。