xAI grok-build coding-agent claude-code codex

xAI Grok Build 詳細｜16-agent Heavy×2M context×$300/月でClaude Codeの3年積み上げに殴り込む構造

アイ

2026-05-18

えっ、xAIまでコーディングエージェント出してきたの？って正直驚いた

このニュース見たとき、わたし「またかよ」って思っちゃった。

だってここ1年で Claude Code、Codex、Gemini CLI、Cursor、Devin、Replit Agent、Lovable、Bolt、v0 って 本当にキリがないくらい コーディングエージェントが出てきたわけ。それなのに 5月14日、xAIまでが Grok Build っていう新しい刺客を投入してきた わけだよ。

で、最初は「またコモディティな後追いプロダクトでしょ」って斜めに見てたんだけど、スペック表をちゃんと読んだら 「あ、これ普通じゃないやつだ」 って 見方が変わった。

参考: xAI Launches Grok Build Beta（Basenor, 2026年5月）

特に気になるのが3つ。16-agent Heavyアーキテクチャ、2M tokenコンテキスト、最大8つのサブエージェント並列実行。これ、他社の単体エージェント設計とまったく違う発想 で、「1つの問いに16個のAIで合議させる」 っていう やや変態的なアプローチ なんだよね。

価格も SuperGrok Heavy $300/月（ChatGPT Pro $200・Claude Max $200・Cursor Ultra $200より高い）で 一番高い んだけど、早期割引で最初6カ月は$99/月 っていう 絶妙な値段 で殴り込んでくる。

世間では「コーディングエージェント市場はClaude Codeが圧勝で確定」って思ってる人が多いし、わたしも実は 「Anthropicが圧倒的に強い」 って先入観があった。Claude Codeで全GitHubコミットの4% っていう数字（昨日の Anthropic vs OpenAI 逆転記事参照）を見ると、もう 逆転は無理かな って雰囲気だったよね。

でも xAI が16-agent Heavy で殴ってきた ことで、「精度の天井を1ステップ突破する可能性」 が出てきた。わたしはこれ、無視しちゃいけない動き だと思う。コーディングって、エンジニアの生産性に直結する から、「ちょっとでも精度が上の方」 に 数百万円のオプションがついても、企業は払う わけなんだよね。

ということで、16-agent Heavy って何？／$300/月って妥当？／2Mコンテキストで何ができる？／結局どれを選べばいい？ っていう4つの角度から、わたしなりに整理してみる。

そう考える4つの理由

16-agent Heavy×8並列っていう「合議AI」の設計思想が独特すぎる

最初の理由がこれ。Grok Build のアーキテクチャ、本当に独特。

普通のコーディングエージェントって、「1つのLLMが1つの問いに答える」 構造なんだよね。Claude Code も基本これだし、Codex も Gemini CLI も同じ。ベースモデルの賢さで勝負する 単体勝負型。

でも Grok 4.3 beta は違う。16個のサブモデルが同時に同じ問いに回答 して、最終的に合議して結論を出す っていう Heavy（重量級）アーキテクチャ。これ、人間の組織で言うと、1人で考えるんじゃなくて16人の専門家で会議して結論を出す イメージなんだよ。

参考: xAI Unveils Grok Build: An Agentic AI Coding Tool（Android Headlines, 2026-05）

さらに Grok Build CLI レベルでは、8つのサブエージェントが同時にプラン・検索・コード生成を実行。つまり 「16人の専門家が、8つのタスクを同時並行で進める」 っていう、ちょっと頭がクラクラするレベルの並列処理。

これ、なんでこんな構造になったかっていうと、Elon Musk の発想が「単一の超巨大モデル」じゃなくて「複数の小さいモデルの合議」 だから。xAI Colossus 2（55万 Blackwell GPU・ギガワット級データセンター） という 計算資源が桁違いに余ってる前提 での設計なんだよね。計算資源で殴れるなら、16並列で精度上げた方が早い という割り切り。

世間では「MoE（Mixture of Experts）の発展版じゃん」って言う人もいるけど、MoEは「専門家を内部で選ぶ」設計、Heavy は 「全員に同じ問いを投げて結果を比較する」 設計で、少し違う。MoEは効率重視、Heavyは精度重視 という違いがあって、Grok Build は明確に「精度重視で計算資源を惜しまない」 方を選んでる。

わたしはこれ、「ハードウェアで殴れる側のロジック」 だと思うんだよね。xAI Colossus 2 が55万GPU っていう 桁違いの計算資源 を持ってるから、「16倍重い処理でもいい、精度が上がるなら」 という選択ができる。Anthropic は AWS Trainium 中心、OpenAI は Microsoft Azure 中心 で、xAI ほどフリーに計算を回せない から、この構造を採用するのは難しい。

だから読者がもし 「Grok Build のキャラ」 を一言で表現したいなら、「計算資源で精度を買うエージェント」 が一番近い。Claude Code が職人気質、Codex が王道、Gemini CLI が大衆派 だとすると、Grok Build は「資源で殴る合議型」 という新しいキャラ。

これがコーディング業界にどう影響するかというと、「複雑なタスクほど Grok Build が強い」 という棲み分けが起きる可能性。短い修正は Claude Code、巨大リファクタは Grok Build みたいに、用途で使い分け が定着するかもしれない。わたしも実際、簡単なバグ修正と全面アーキテクチャ刷新で同じツールを使うのは違うな って前から思ってたから、これは合理的な流れだと思う。

$300/月って高くない？って思ったけど、よく見たら $99 で殴り込んできてる

2つ目の理由が、価格戦略のえげつなさ。

SuperGrok Heavy 月額$300 っていうの、最初聞いたとき 「えっ高くない？」 って思ったんだよね。だって ChatGPT Pro $200／Claude Max $200／Cursor Ultra $200 が 業界の上限ラインだった から、$300 は明らかに飛び抜けてる。

でも 早期割引で6カ月$99/月 っていう 小細工 が入ってる。67%オフ。これは 業界で一番安い水準（Cursor Pro $20／Claude Pro $20 などの個人向けより上だけど、Maxプラン群の半額）。

参考: xAI Launches Grok Build Coding Agent For Developers（Dataconomy, 2026-05-15）

この価格戦略、Spotify／Netflix の初期割引 と全く同じパターン。「最初は安くして使わせて、半年後に正規料金に戻す」 やり方で、6カ月で使う癖をつけさせる→スイッチングコストが上がる→$300/月で継続 という 教科書通りの定着戦略。

世間では「$99 でも高い、$20-30じゃないと一般エンジニアは買わない」っていう意見も多い。Cursor が $20/月で全エンジニアを取りに行ってる のと比べると、Grok Build はターゲット層が完全に違う。

でも わたしはこの値付け、すごく考えられてる と思うんだよね。

なぜなら、プロのソフトウェアエンジニア に 「年収1,000万円超のエンジニアの時給」 で換算すると、月$300 = 約4.5万円 = 約2時間分の人件費 に過ぎない。Grok Build が1ヶ月で2時間分の時短 を出してくれれば、もう元が取れる計算。16並列エージェントが8並列でタスクをこなす なら、2時間どころか週20時間以上の時短 は余裕なはず。

しかも 企業の導入判断 だと 「ツール選定はエンジニア組織主導 → 経営判断はROI」 が王道。$300/月 × エンジニア100人 = 年$36万 という 大した金額じゃない数字 で、生産性が10%上がれば人件費削減で年$1M以上のリターン。SaaS全般がこの「人件費比で考えれば誤差」 という値付けで急成長してきたパターンを、Grok Build がそのままなぞってる。

だから読者がもし 「自分は Grok Build 使うべきか？」 を考えるなら、「フリーランス・個人 → Cursor Pro $20」「企業エンジニア → Claude Code $200 or Grok Build $99-300」「複雑な大規模リファクタが多い職場 → Grok Build」 という 棲み分け が現実的かな。わたしの周りでも「個人と仕事で別ツール」 にしてるエンジニアが増えてる。

ちなみに $99 早期割引 は 「6カ月後に$300に戻る」 わけだから、最初の6カ月で本気で評価してから継続/解約を判断するのが正しい使い方。「とりあえず入って惰性で更新」だと$300/月の罠 に ハマる可能性大。

2M tokenコンテキストの正体は「全リポジトリ丸ごと食わせる」前提

3つ目の理由が、2M tokenコンテキストの意味。

2M トークン っていうのは 日本語で約100万字、英語で約150万単語 に相当する 超巨大なコンテキスト。Claude Opus 4.7 が 1M token、Gemini 2.5 Pro が 1M token なので、Grok 4.3 は単純に倍。

これ、なんでこんなに長いの？って思うじゃん。実は「全リポジトリを丸ごと一発で読ませる」 ことを 前提に設計 されてるんだよ。

参考: Grok Build: xAI's Agentic Coding CLI Takes On Claude Code（pasqualepillitteri.it, 2026-05）

具体的に、中規模のプロジェクト（10-50万行） だと、全ソースコードのトークン数は100-500万token くらい。1M context だと工夫しないと収まらない（ファイル分割や RAG が必要）けど、2M context だと「中規模リポジトリは丸ごと食える」。これ、コーディングエージェントの精度に直結 するんだよね。

世間では「そんな長いコンテキスト誰が使うの？無駄じゃない？」って言う人もいる。確かに短いタスクには過剰 だし、LLM のコストはコンテキスト長に比例して増える から、短い処理に2M を使うのは経済合理性が悪い。

でも わたしはこれ、「全リポジトリ理解の精度差」 が 超大事 だと思うんだよね。

なぜなら、実務のコーディングって「あるファイルを直したら別の場所で何が壊れる？」 っていう 依存関係の理解 が本質。短いコンテキストの LLM は 「与えられた範囲しか見ない」 から、「他の場所への影響を見落とす」 ことが めっちゃ多い。

具体例だと、わたしが先月手伝ったプロジェクト（Next.js + TypeScript の中規模 SaaS）で、ある API レスポンス型を変えたい という依頼があった。Claude（1M context）で全リポジトリ理解させてリファクタ したら、12箇所の参照が漏れなく検出 されて1発で動いた。もし200K context だったら、確実に2-3箇所漏れる やつ。

2M context だと これがさらに大きいリポジトリでも できるようになる。Linux Kernel（約2,000万行） はさすがに無理だけど、大規模 SaaS の単一サービス（50-200万行） ぐらいなら 全部食える。「リポジトリの全部を見て答える AI」 が 当たり前になる時代 の入口。

だから読者がもし 「自分のプロジェクトで Grok Build を試す価値があるか」 を判断するなら、リポジトリのサイズ で 線引き するといい。100万行を超えるレガシーコード なら Grok Build の2M contextが効く可能性大、5万行以下の小規模 なら Claude Code でも十分。

そしてもう一つ大事なのが、コンテキストが長くなると LLM の「中央の情報を忘れる lost in the middle 問題」 が出ること。Grok 4.3 がここをどう解決してるか はまだ公開されてないけど、16-agent Heavy で「複数モデルが別の場所を担当する」 構造で 緩和してる可能性 があるんだよね。これは これからのベンチマークで明らかになる はず。

4強化したコーディングエージェント市場、どれを選べばいいか整理してみた

4つ目の理由は、実用的な選び方。

正直、コーディングエージェント、ありすぎてどれ選べばいいかわかんない という人多いと思うんだよね。わたしも今でも 「あれ、これは何だっけ」 ってなる時があるくらい。

参考: xAI joins crowded coding agent race with Grok Build（CIO Dive）

5月時点の 4強体制 を わたしなりに整理 すると、こんな感じ:

Claude Code（Anthropic） は 個人 $20-200／Max $200 で、汎用性が高くてエンジニアに最も支持されてる。.claude/skills のカスタマイズ機構 が強くて、「自分の作業環境を作り込める」 のが特徴。全GitHubコミットの4% という浸透率は伊達じゃない。

Codex（OpenAI） は ChatGPT Plus $20／Pro $200／Enterprise で、ChatGPT との統合が強い。OpenAI のエコシステム に すでに乗ってる人 に向く。最近 ChatGPT+Codex+API の super app 統合 が進んでて、「全部 ChatGPT で完結」 したい人向け。

Gemini CLI（Google） は Workspace Business Standard $14/月 など Google エコシステムでバンドル されてる。Drive／Docs／Gmail 連携 が 異常に強い。「ドキュメント書きながらコード書く」 用途で強い。

Grok Build（xAI） は $99（早割）-300/月 で、16-agent Heavy×2M context の 「資源で殴る合議型」。巨大リポジトリ・複雑なリファクタ で真価。X（旧Twitter）との連携や、Tesla／SpaceXのコードベースとの統合 が 今後の差別化要素 になりそう。

世間では「Cursor が一番」「いやWindsurfが」「Devinこそ最強」 とかいろんな意見があるけど、わたしは「用途で使い分ける時代に入った」 という認識でいる。1つに絞る時代は終わった。

なぜなら、コーディングっていろんな作業の集合体 だから。簡単な修正・新規実装・大規模リファクタ・デバッグ・テスト書き・ドキュメント書き など、それぞれに最適なツールが違う。1つのエージェントが全部最強 ということは ありえない。

だから読者へのおすすめは、「軸となる主力1つ＋特殊用途用1-2つ」 という マルチツール体制。具体的には:

主力（毎日使う）: Claude Code Max $200 か Cursor Pro $20（個人なら）
複雑なリファクタ用: Grok Build $99（早割） を 6カ月試す
ドキュメント連動用: Gemini CLI（Workspace併用なら無料追加）
ChatGPT エコシステム重視: Codex / ChatGPT Plus

全部入れても月$300以下 で済むし、用途で使い分ければ生産性は確実に上がる。「1つに絞ろうとする方が損」 な時代に 完全に入った。

関連: 各ツールの詳細比較は Cursor vs Claude Code vs Copilot 2026 完全比較を見ると整理しやすい。

まとめ：わたしたちは「ベンダーロックされない使い方」を意識した方がいい

ここまで Grok Build の アーキテクチャ／価格／コンテキスト／使い分け を見てきたわけだけど、最後に わたしが一番伝えたいこと。

それは 「コーディングエージェントは、もうベンダー1社に依存する時代じゃない」 ということ。

Claude Code が4%シェア取った とか、Anthropic 企業導入率34.4% とか、OpenAI ARR $25B とか、xAI が新規参入 とか、いろんなニュースが毎週飛び込んでくる。そのたびに 「乗り換えるべき？」 って思うけど、正直に言うと、毎週乗り換えるのは無理。

でも 「全部使えるようにしておく」 ことは できる。Claude Code の .claude/skills を整備しておけば、別のエージェントに移った時に「やってきたカスタマイズ」を 使い回せる（標準化が進めば）。MCP（Model Context Protocol） が 97M月次インストール突破でLinux Foundation配下 に行った（昨日朝のニュース参照）ことで、「ツール接続部分はベンダー中立化が確定」 したわけ。つまり「ベンダーロック」される時代は終わりつつある。

だから読者へのアクションとしては:

MCP対応のツールを優先する（ベンダーロック回避）
「自分の作業環境（skill／プロンプト／ワークフロー）」を文書化する（ツール乗り換え時に効く）
新しいエージェントが出たら、月$99-100で1ヶ月だけ試す（年$1,000予算で全部触れる）
「全部使う」よりも「2-3個を使い分ける」（用途別マルチツール）

正直、AIの進化速度は人間が追いつけないレベル に なってきた。でも 「自分の使い方を整理しておく」 ことだけは AI じゃなくて人間がやるべき仕事。ここを怠ると、毎週ニュースに振り回されて何も生産性が上がらない っていう 逆現象 が起きる。

わたしも実は、半年前まで「Cursor 一本」 だったんだけど、Claude Code の .claude/skills でカスタマイズし始めてから、生産性が体感2倍 になった。1つに絞らない方が、結果として効率が上がる ってこと、自分で体感した感じ。

Grok Build もとりあえず$99で6カ月試す つもり。16-agent Heavy が本当に効くのか、複雑なリファクタで実証してみたい。結果はまた別の記事で書くね。

関連記事:

ソース: