DeepSeek v4-pro open-weights コーディングAI moe

🐋 DeepSeek V4-Pro 1.6T MoE｜オープンウェイトがClaude Opus 4.6に0.2ptまで詰めた日

アイ

2026-05-08

中国オープンウェイトがフロンティア肉薄、ヤバすぎる時代

「中国のAIモデルがClaude Opus 4.6に0.2ptまで肉薄」って聞いて、ヤバくない？

DeepSeekが2026年4月24日に公開した V4-Pro、これがマジで化け物。

SWE-bench Verified 80.6%（Claude Opus 4.6 = 80.8%）
Codeforces 3,206（GPT-5.4 = 3,168 を超えた）
1.6Tパラメータ MoE（49Bアクティブ）
コンテキスト1M
MIT License で重み公開

つまり、コーディングではClaude Opus 4.6とほぼ同等、GPT-5.4は上回り、しかも自由ダウンロード。

しかも価格が $0.30/MTok とかで、Claude Opus 4.6（$15/MTok）の 50分の1 とかいう破壊的レベル。

これ、AIモデル選びの常識が変わる 規模の事件。順に解説するね。

そう考える4つの理由

SWE-bench 80.6%の数字をどう読むか

まず SWE-bench Verified って何かというと、実際のオープンソースリポジトリのバグ修正タスク をAIが解けるかを測るベンチマーク。現実のソフトウェアエンジニアリング能力 に直結する数値。

NxCode報道によると、現時点での主要モデルのSWE-bench Verifiedスコアは:

Claude Opus 4.6: 80.8%
DeepSeek V4-Pro: 80.6%（−0.2pt）
GPT-5.5: 78.x%（推定）
Gemini 2.5 Pro: 76.x%（推定）

Claude Opus 4.6が0.2pt差で先頭 だけど、DeepSeek V4-Pro が次点で他のフロンティアを上回ってる。これ、半年前なら考えられない数字。

MindStudio記事によると、DeepSeekがここまで来た要因は:

MoEアーキテクチャの最適化: 1.6Tパラ中49Bアクティブで効率的
コーディング特化の学習データ: GitHub大量＋特化データセット
強化学習（RL）の反復改善: V3.2からの継続改善

つまりDeepSeekは 「フロンティアモデルを0.2pt差で追い抜ける」レベル に到達した。Claude Opusの優位は わずか0.2pt で、誤差範囲とすら言える。

正直、わたしClaude Code毎日使ってて、コーディング能力でClaude Opusに依存してたんだよね。それが「MIT License の自由なモデル がほぼ同等」って言われると、考え直さざるを得ない。

ただし注意点として、SWE-benchはあくまで ベンチマーク で、実環境のコーディングタスクとは違う。プロジェクト固有のコンテキスト・ライブラリ知識・チームの慣習 などはClaudeの方が強い場合もある。

それでも 80.6% という数字を MIT License で実現した のは、業界に衝撃。

Codeforces 3206でGPT-5.4超えの意味

Codeforces はプログラミング競技プラットフォームで、世界中のプログラマーがアルゴリズム問題で勝負 してる。Codeforcesのレーティングは 熟練プログラマーの能力指標 として確立されてる。

Codersera報道によると:

DeepSeek V4-Pro: 3,206
GPT-5.4: 3,168
GPT-5.5: 3,200前後（推定）
Claude Opus 4.6: 3,150前後
人間トップ層: 3,500-3,800（Tourist氏など）

DeepSeek V4-Proが3,206で歴代AIモデル最高 という記録を更新。GPT-5.4を超えた のは2026年4月時点での快挙。

これって何を意味するかというと、競技プログラミング・アルゴリズム問題でDeepSeek V4-Proが最強 ということ。ICPC（大学世界大会）の上位大学のレーティングと同等以上。

実用面で何が変わるかというと:

複雑なアルゴリズム実装 がDeepSeek V4-Proで可能に
データ構造・最適化が必要なコード で精度高い
競技プログラミング学習 にも使える
科学計算・数値解析 でのコード生成が強い

これは ML研究者・量的アナリスト・ゲーム開発・暗号 といった アルゴリズム重視の分野 で特に強い。

正直、わたしも 競技プログラミング系の問題をAIに振る ことがあるんだけど、Claudeはたまに「定番のアルゴリズムをわざと避ける」みたいな変な挙動する時がある。DeepSeek V4-Proがこの分野で強いなら、用途別に使い分け するのが正解になる。

MoE 1.6T＋1Mコンテキストの技術的革新

技術的なところ、ちょっと深掘りする。

DataCamp解説によると、DeepSeek V4-Proの構造は:

総パラメータ: 1.6T（GPT-4と同規模、Claude Opus同規模）
アクティブパラメータ: 49B（推論時に実際に動く分）
コンテキスト: 1M トークン
新アーキテクチャ: CSA（Compressed Sparse Attention）+ HCA（Heavily Compressed Attention）

ポイント解説:

MoE（Mixture-of-Experts） は、多数の専門家ネットワーク から タスクに応じて一部だけアクティブ にする仕組み。1.6Tパラメータあっても、推論時は49Bしか動かないから 計算コストが従来の1/30以下。

1Mコンテキスト は超長文対応。例えば:

大規模リポジトリ全体（Linux kernel等） をコンテキストに入れて開発
書籍数冊分 の文書を一度に分析
長時間のミーティング録音 を一気に処理
複数論文の比較分析

しかもWavespeed解説では、1Mコンテキスト下で V3.2 比推論FLOPs 27%、KVキャッシュ 10% と、長文での効率が劇的改善。これは技術的にすごい。

CSA + HCA の新アテンション は、長文での計算量を爆減 させる手法で、これが1Mコンテキストでも実用速度を可能にしてる。

正直、1.6Tパラのモデルを自分のサーバで動かす のは現実的じゃない（必要GPU数が多すぎる）けど、DeepSeek API 経由なら使える。$0.30/MTok の超低価格 だから、企業の API 呼び出しコストも激減する。

Claude Code/Cursor/Devinへの圧力

最後に、これがコーディングツール市場に与える影響。

現在のコーディングAIツールの主要選択肢:

Claude Code（Anthropic公式）: Claude Sonnet/Opus 4.6 ベース、$200/月 Max
Cursor: GPT-5.5/Claude/Gemini切替、$20-200/月
GitHub Copilot: GPT-5.5ベース、$10-39/月
Devin: Claude/GPT切替、$500/月+
Windsurf: 各モデル選択、$15-60/月

これらに DeepSeek V4-Pro対応 が組み込まれると、コストが激減 する可能性。

例えばCursorは既に DeepSeek対応 してて、ユーザーが選べる。$20/月のProプランで Claude Opus 使うと トークン制限が厳しい けど、DeepSeek V4-Pro なら同じプランで何倍もコード書ける。

これはClaude Code Max（$200/月）の優位性が薄れる ことを意味する。Claudeが0.2pt勝ってるとしても、コスト50分の1のDeepSeekで「実用上ほぼ同じ」が成り立つなら、ユーザーはコスト効率を優先する。

Coderseraレビューでも「Claudeのコーディングはより文脈理解が深いが、DeepSeekは速くて安い」と評価。精度の最後の0.2pt に$200/月払う か、実用十分の80.6%で$0.30/MTokを選ぶかの判断。

ただし、Anthropic Claude の優位 は残る:

長期プロジェクト での文脈把握とコード理解
チーム慣習・スタイル への適応（dreaming機能で更に強化）
エンタープライズ向けsafety／監査機能
ハルシネーション率の低さ

なので 使い分け が正解。プロトタイプ・短時間タスク・大量量産はDeepSeek、長期プロジェクト・規制業界はClaude という棲み分けが現実的。

正直、わたしも今 Claude Code を Max プランで契約してるんだけど、コーディング特化のサブタスクは DeepSeek API 直接呼ぶのが効率的かもしれない。試してみる価値ある。

まとめ：オープンウェイトを選ぶ正しい理由

DeepSeek V4-Proの登場って、オープンウェイトAIがフロンティアと張り合えるレベル に到達した記念碑的な出来事。

SWE-bench 80.6%（Claude Opus 4.6 -0.2pt）／Codeforces 3,206（GPT-5.4超え）／1Mコンテキスト／MIT License／コスト1/50 という、これ全部を1モデルで実現してきた。

わたしたちユーザーが意識すべきは：

コーディング特化なら DeepSeek V4-Pro を真剣に検討
ただし長期プロジェクト・チーム慣習は Claude が優位
コスト最適化したいなら DeepSeek API直叩き
自社モデル運用したい企業はオンプレで動かせる
オープンウェイトの安全性・倫理面の議論は別途必要

AIモデル選びはもう「ChatGPT/Claude/Gemini の3強で選ぶ」時代じゃない。DeepSeek/Qwen/Llama といったオープンウェイトを含めた 5強時代 に入った。

ソース: