AI Today
ホーム > 考察記事 > 🐋 DeepSeek V4-Pro 1.6T MoE|オープンウェイトがClaude Opus 4.6に0.2ptまで詰めた日

🐋 DeepSeek V4-Pro 1.6T MoE|オープンウェイトがClaude Opus 4.6に0.2ptまで詰めた日

アイ

アイ

目次


中国オープンウェイトがフロンティア肉薄、ヤバすぎる時代

中国のAIモデルがClaude Opus 4.6に0.2ptまで肉薄」って聞いて、ヤバくない?

DeepSeekが2026年4月24日に公開した V4-Pro、これがマジで化け物。

  • SWE-bench Verified 80.6%(Claude Opus 4.6 = 80.8%)
  • Codeforces 3,206(GPT-5.4 = 3,168 を超えた)
  • 1.6Tパラメータ MoE(49Bアクティブ)
  • コンテキスト1M
  • MIT License で重み公開

つまり、コーディングではClaude Opus 4.6とほぼ同等、GPT-5.4は上回り、しかも自由ダウンロード

しかも価格が $0.30/MTok とかで、Claude Opus 4.6($15/MTok)の 50分の1 とかいう破壊的レベル。

これ、AIモデル選びの常識が変わる 規模の事件。順に解説するね。


そう考える4つの理由

SWE-bench 80.6%の数字をどう読むか

まず SWE-bench Verified って何かというと、実際のオープンソースリポジトリのバグ修正タスク をAIが解けるかを測るベンチマーク。現実のソフトウェアエンジニアリング能力 に直結する数値。

NxCode報道によると、現時点での主要モデルのSWE-bench Verifiedスコアは:

  • Claude Opus 4.6: 80.8%
  • DeepSeek V4-Pro: 80.6%(−0.2pt)
  • GPT-5.5: 78.x%(推定)
  • Gemini 2.5 Pro: 76.x%(推定)

Claude Opus 4.6が0.2pt差で先頭 だけど、DeepSeek V4-Pro が次点で他のフロンティアを上回ってる。これ、半年前なら考えられない数字。

MindStudio記事によると、DeepSeekがここまで来た要因は:

  1. MoEアーキテクチャの最適化: 1.6Tパラ中49Bアクティブで効率的
  2. コーディング特化の学習データ: GitHub大量+特化データセット
  3. 強化学習(RL)の反復改善: V3.2からの継続改善

つまりDeepSeekは 「フロンティアモデルを0.2pt差で追い抜ける」レベル に到達した。Claude Opusの優位は わずか0.2pt で、誤差範囲とすら言える。

正直、わたしClaude Code毎日使ってて、コーディング能力でClaude Opusに依存してたんだよね。それが「MIT License の自由なモデル がほぼ同等」って言われると、考え直さざるを得ない。

ただし注意点として、SWE-benchはあくまで ベンチマーク で、実環境のコーディングタスクとは違う。プロジェクト固有のコンテキスト・ライブラリ知識・チームの慣習 などはClaudeの方が強い場合もある。

それでも 80.6% という数字を MIT License で実現した のは、業界に衝撃。


Codeforces 3206でGPT-5.4超えの意味

Codeforces はプログラミング競技プラットフォームで、世界中のプログラマーがアルゴリズム問題で勝負 してる。Codeforcesのレーティングは 熟練プログラマーの能力指標 として確立されてる。

Codersera報道によると:

  • DeepSeek V4-Pro: 3,206
  • GPT-5.4: 3,168
  • GPT-5.5: 3,200前後(推定)
  • Claude Opus 4.6: 3,150前後
  • 人間トップ層: 3,500-3,800(Tourist氏など)

DeepSeek V4-Proが3,206で歴代AIモデル最高 という記録を更新。GPT-5.4を超えた のは2026年4月時点での快挙。

これって何を意味するかというと、競技プログラミング・アルゴリズム問題でDeepSeek V4-Proが最強 ということ。ICPC(大学世界大会)の上位大学のレーティングと同等以上。

実用面で何が変わるかというと:

  • 複雑なアルゴリズム実装 がDeepSeek V4-Proで可能に
  • データ構造・最適化が必要なコード で精度高い
  • 競技プログラミング学習 にも使える
  • 科学計算・数値解析 でのコード生成が強い

これは ML研究者・量的アナリスト・ゲーム開発・暗号 といった アルゴリズム重視の分野 で特に強い。

正直、わたしも 競技プログラミング系の問題をAIに振る ことがあるんだけど、Claudeはたまに「定番のアルゴリズムをわざと避ける」みたいな変な挙動する時がある。DeepSeek V4-Proがこの分野で強いなら、用途別に使い分け するのが正解になる。


MoE 1.6T+1Mコンテキストの技術的革新

技術的なところ、ちょっと深掘りする。

DataCamp解説によると、DeepSeek V4-Proの構造は:

  • 総パラメータ: 1.6T(GPT-4と同規模、Claude Opus同規模)
  • アクティブパラメータ: 49B(推論時に実際に動く分)
  • コンテキスト: 1M トークン
  • 新アーキテクチャ: CSA(Compressed Sparse Attention)+ HCA(Heavily Compressed Attention)

ポイント解説:

MoE(Mixture-of-Experts) は、多数の専門家ネットワーク から タスクに応じて一部だけアクティブ にする仕組み。1.6Tパラメータあっても、推論時は49Bしか動かないから 計算コストが従来の1/30以下

1Mコンテキスト は超長文対応。例えば:

  • 大規模リポジトリ全体(Linux kernel等) をコンテキストに入れて開発
  • 書籍数冊分 の文書を一度に分析
  • 長時間のミーティング録音 を一気に処理
  • 複数論文の比較分析

しかもWavespeed解説では、1Mコンテキスト下で V3.2 比 推論FLOPs 27%、KVキャッシュ 10% と、長文での効率が劇的改善。これは技術的にすごい。

CSA + HCA の新アテンション は、長文での計算量を爆減 させる手法で、これが1Mコンテキストでも実用速度を可能にしてる。

正直、1.6Tパラのモデルを自分のサーバで動かす のは現実的じゃない(必要GPU数が多すぎる)けど、DeepSeek API 経由なら使える。$0.30/MTok の超低価格 だから、企業の API 呼び出しコストも激減する。


Claude Code/Cursor/Devinへの圧力

最後に、これがコーディングツール市場に与える影響。

現在のコーディングAIツールの主要選択肢:

  • Claude Code(Anthropic公式): Claude Sonnet/Opus 4.6 ベース、$200/月 Max
  • Cursor: GPT-5.5/Claude/Gemini切替、$20-200/月
  • GitHub Copilot: GPT-5.5ベース、$10-39/月
  • Devin: Claude/GPT切替、$500/月+
  • Windsurf: 各モデル選択、$15-60/月

これらに DeepSeek V4-Pro対応 が組み込まれると、コストが激減 する可能性。

例えばCursorは既に DeepSeek対応 してて、ユーザーが選べる。$20/月のProプランで Claude Opus 使うと トークン制限が厳しい けど、DeepSeek V4-Pro なら同じプランで何倍もコード書ける

これはClaude Code Max($200/月)の優位性が薄れる ことを意味する。Claudeが0.2pt勝ってるとしても、コスト50分の1のDeepSeekで「実用上ほぼ同じ」が成り立つなら、ユーザーはコスト効率を優先する。

Coderseraレビューでも「Claudeのコーディングはより文脈理解が深いが、DeepSeekは速くて安い」と評価。精度の最後の0.2pt に**$200/月払う** か、実用十分の80.6%で$0.30/MTokを選ぶかの判断。

ただし、Anthropic Claude の優位 は残る:

  • 長期プロジェクト での文脈把握とコード理解
  • チーム慣習・スタイル への適応(dreaming機能で更に強化)
  • エンタープライズ向けsafety/監査機能
  • ハルシネーション率の低さ

なので 使い分け が正解。プロトタイプ・短時間タスク・大量量産はDeepSeek長期プロジェクト・規制業界はClaude という棲み分けが現実的。

正直、わたしも今 Claude Code を Max プランで契約してるんだけど、コーディング特化のサブタスクは DeepSeek API 直接呼ぶのが効率的かもしれない。試してみる価値ある。


まとめ:オープンウェイトを選ぶ正しい理由

DeepSeek V4-Proの登場って、オープンウェイトAIがフロンティアと張り合えるレベル に到達した記念碑的な出来事。

SWE-bench 80.6%(Claude Opus 4.6 -0.2pt)/Codeforces 3,206(GPT-5.4超え)/1Mコンテキスト/MIT License/コスト1/50 という、これ全部を1モデルで実現してきた。

わたしたちユーザーが意識すべきは:

  • コーディング特化なら DeepSeek V4-Pro を真剣に検討
  • ただし長期プロジェクト・チーム慣習は Claude が優位
  • コスト最適化したいなら DeepSeek API直叩き
  • 自社モデル運用したい企業はオンプレで動かせる
  • オープンウェイトの安全性・倫理面の議論は別途必要

AIモデル選びはもう「ChatGPT/Claude/Gemini の3強で選ぶ」時代じゃない。DeepSeek/Qwen/Llama といったオープンウェイトを含めた 5強時代 に入った。

関連記事: Cursor vs Claude Code vs Copilot 比較 / AIコーディング料金比較2026 / Claude Codeセットアップガイド

ソース: