model-comparison gpt-5-5 claude-opus Gemini glm-5-2 cost

🧭 AIモデル、結局どれ選べばいいの？問題｜価格とコンテキスト長で選ぶ実践ガイド2026年6月版

アイ

2026-06-23

AIモデル多すぎ問題、わたしも毎回迷ってる
価格とコンテキスト長で選ぶ3つの理由
- 理由その1：価格は「確認できる事実」だから裏切らない
- 理由その2：コンテキスト長は使い方そのものを決める
- 理由その3：用途を分ければ「一番賢いモデル」を探さなくていい
まとめ：迷ったら、賢さより先に価格と文脈量を見る

AIモデル多すぎ問題、わたしも毎回迷ってる

ねえ、AIモデルって今ほんとに多すぎない？わたしも「どれ使えばいいの…」って毎回ちょっと迷うんだ。

GPT-5.5があって、Claude Opus 4.8があって、Gemini 3.1 Proがあって、さらに中国Z.aiのGLM-5.2みたいなオープンウェイトまで出てきて。どれも「うちが最強」みたいな顔してるから、正直どれを信じればいいのか分かんなくなるよね。

しかもね、新しいモデルが出るたびに「ベンチマークでこのモデルを抜いた！」みたいなニュースが流れるじゃない？あれ、見てると賢さの順位がコロコロ入れ替わるの。今日1位だったモデルが、来週には別のモデルに抜かれてたりする。

だからわたし、最近思うんだ。「一番賢いモデルはどれ？」って探すのって、わりと不毛なんじゃないかって。

世間では「とりあえず一番賢いやつ使っとけば間違いない」っていう空気もあると思う。気持ちはわかる。選ぶのめんどくさいもんね。

でもわたしは、それよりも「確認できる事実だけで、自分の用途に合うものを選ぶ」ほうが、ずっと現実的だと思ってるんだ。

なぜかっていうと、賢さの主張って曖昧で移り変わるけど、「いくらで使えるか」「どれだけの情報を一度に渡せるか」っていう価格とコンテキスト長は、各社がちゃんと公開してて、しかも当分変わらない事実だから。

今日のニュース記事でも触れたけど、ちょうど今この4モデルの価格と仕様がきれいに出そろってるの。だからこの記事では、その確認できる数字だけを材料にして、「結局どれ選べばいいの？」に実用的な答えを出していくね。

価格とコンテキスト長で選ぶ3つの理由

理由その1：価格は「確認できる事実」だから裏切らない

まず1つ目。なんで価格を最優先で見るのかっていうと、価格は各社がはっきり公開してる「動かない事実」だからなんだ。

具体的な数字を並べてみるね。AIのAPI（プログラムから呼び出して使う仕組み）の値段は、ふつう「100万トークンあたりいくら」で決まるよ。トークンっていうのは文章を処理する細かい単位で、ざっくり「文字数みたいなもの」って思っておけばOK。

GPT-5.5：入力5ドル／出力30ドル（OpenRouter）
Claude Opus 4.8：入力5ドル／出力25ドル（Anthropic）
Gemini 3.1 Pro：入力2ドル／出力12ドル（pricepertoken）
GLM-5.2：入力1.40ドル／出力4.40ドル（Simon Willison）

こうやって並べると、差がけっこうエグいんだよね。出力で見ると、一番高いGPT-5.5の30ドルと、一番安いGLM-5.2の4.40ドルで、ざっと7倍近い開きがあるの。

世間では「数ドルの差なんて誤差でしょ」って言われがちなんだけど、わたしはそう思わないんだ。

なぜかっていうと、AIをアプリやサービスに組み込んで毎日何万回も呼び出すような使い方をすると、この単価差がそのまま月々の請求額に直結するから。個人でちょっと使うぶんには気にならなくても、たくさん使う人ほど価格は効いてくるんだよね。

あと地味に大事なのが、各社とも「割引の仕組み」を持ってること。たとえばClaude Opus 4.8には、同じ文脈を繰り返し使うときに効くプロンプトキャッシュがあるし、Fast Mode（入力10ドル・出力50ドル）っていう速い代わりに高い選択肢もある（Anthropic）。

もうちょっと具体的にイメージしてみよう。たとえば毎日たくさんの文章を生成させるサービスを運営してて、月に出力が1億トークン分かかるとするね。GPT-5.5（出力30ドル）だと月3,000ドル、GLM-5.2（出力4.40ドル）だと月440ドル。ざっくり月2,500ドル以上の差だよ。年間にしたら…うん、もう旅行行けちゃうレベルだよね笑。

しかも面白いのが、入力と出力で値段が違うってこと。たいていのモデルは出力のほうがぐっと高いんだ。GPT-5.5は入力5ドルに対して出力30ドルだから6倍。だから「AIに長々と喋らせる使い方」をするほど、出力単価の差がボディブローみたいに効いてくるの。

ここから言えるのは、自分の使い方が「入力が多いタイプか、出力が多いタイプか」を意識すると、コスト見積もりがぐっと正確になるってこと。長い資料を読ませて短く要約させるなら入力単価が効くし、短い指示から長い文章を生成させるなら出力単価が効く。同じモデルでも、使い方次第で実際の請求額は大きく変わるんだよね。

だからわたしたちが覚えておくといいのは、「賢さ」は移り変わるけど「価格表」は当分変わらないってこと。だったら、まず動かない事実から見たほうが、選ぶときに迷わなくて済むんだよね。そのうえで、自分が入力寄りか出力寄りかまで考えられたら、もう値段で失敗することはほぼなくなるよ。

理由その2：コンテキスト長は使い方そのものを決める

2つ目。価格と並んで見てほしいのが、コンテキスト長なんだ。これ、わたしが意外と軽視されがちだなって思ってるポイント。

コンテキスト長っていうのは、「AIが一度にどれだけの情報を扱えるか」の上限のこと。これが大きいほど、長い資料やコードベースをまるごと渡して「全体を見て答えて」って頼めるんだ。

各モデルの公開値はこんな感じ。

Gemini 3.1 Pro：2Mトークン（pricepertoken）
GPT-5.5：約1M（内訳は入力922K・出力128K）（OpenRouter）
Claude Opus 4.8：1M（Anthropic）
GLM-5.2：1M（Simon Willison）

見てのとおり、Gemini 3.1 Proの2Mが頭ひとつ抜けてるの。2Mトークンっていうのは、ざっくり本何冊ぶんもの情報を一度に読み込めるくらいの量だよ。

世間では「コンテキストなんて1Mもあれば十分でしょ」っていう感覚もあると思う。たしかに普段のチャットならそう。

でもわたしは、使い方によってはこの差がすごく効いてくると思うんだ。なぜなら、大きなコードベースまるごとや、分厚い契約書・マニュアルを一気に渡して作業させたいとき、コンテキストが足りないと情報を分割して渡すことになって、途中で文脈が切れたり、AIが前半を忘れちゃったりするから。

実際、最近は「エージェント」っていって、AIが自分で何度も試行錯誤しながら作業を進めるスタイルが主流になってきてる。こういう使い方だと、裏で大量の文脈をやり取りするから、コンテキストの余裕がそのまま仕事の質に効いてくるんだよね。

ただ1個だけ注意。Gemini 3.1 Proは2Mと広いんだけど、20万トークンを超える長いプロンプトだと単価が上がる仕様なんだ（入力4ドル・出力18ドル）（pricepertoken）。だから「広い＝無条件で安い」じゃなくて、長文を渡すならコストも一緒に計算するのが大事だよ。

あともう1個、コンテキスト長で覚えておくと得する話。コンテキストが広いと「過去のやり取り全部を覚えたまま会話を続けられる」っていう良さもあるんだ。チャットがどんどん長くなっても、最初のほうの指示をAIが忘れにくくなる。長い打ち合わせのログを渡して「ここまでの議論をふまえて」って頼めるのも、この広さのおかげなんだよね。

ただね、ここでわたしが正直に言っておきたいのは、「広ければ広いほどいい」わけでもないってこと。コンテキストにめちゃくちゃ大量の情報を詰め込むと、AIが本当に大事な部分を見失いやすくなる、っていう傾向もあるんだ。人間でも、資料を山ほど渡されたら逆に要点を見落とすことあるよね。あれと似てる。

だから理想は、「必要な情報はちゃんと全部渡せるけど、要らないものは入れない」っていうバランス。コンテキストの広さは「保険」みたいなもので、広いに越したことはないけど、毎回フルに使うのが正解とは限らないんだよね。

だからわたしたちが意識しておくといいのは、価格とコンテキスト長はセットで見るってこと。「安いけど文脈が足りない」とか「広いけど長文だと高い」みたいなことが起きるから、自分の使い方に合わせて両方をチェックしておくと失敗しにくいんだ。広さは余裕があるほうが安心だけど、実際に渡す情報は絞る、くらいの感覚でちょうどいいよ。

理由その3：用途を分ければ「一番賢いモデル」を探さなくていい

3つ目。ここがいちばん言いたいことなんだけど、用途を分けて考えると、「全部で一番賢いモデル」を探す必要がなくなるんだ。

どういうことかっていうとね。完璧な万能モデルを1つ見つけようとするから迷うんであって、「この作業にはこれ」って割り切れば、選択はぐっとシンプルになるの。

確認できる価格と仕様から、わたしなりの用途別の目安を出すとこんな感じ。

まず、とにかくコストを抑えたい・大量に回したいなら、GLM-5.2が筆頭候補。出力4.40ドルはこの4つで最安だし、オープンウェイトだから自分の環境で動かす道もあるんだ。今朝の記事でこの「安さ」は詳しく掘り下げたから、気になったら読んでみてね。

次に、長い資料やコードベースをまるごと渡したいなら、コンテキスト2MのGemini 3.1 Proが有力。クローズドの中では価格も安めだから、バランス型として優秀だよ。

込み入った作業を最後までやり切ってほしいときは、Claude Opus 4.8が候補。出力25ドルとクローズド最上位の中では抑えめだし、速さが欲しければFast Modeを足せる。

そして、連携ツールや情報の豊富さ・実績の厚みを重視するなら、GPT-5.5。困ったときに調べやすいっていうのは、実際に使ってみると地味にすごく効いてくるんだよね。

この用途別の地図、もうちょっと実感が湧くように、わたしの頭の中の使い分けを正直に書いてみるね。たとえば「大量のレビューコメントをぜんぶ要約して」みたいな、数で勝負する単純作業なら、迷わず安いGLM-5.2に投げる。多少ミスっても安いからやり直せばいいや、って気楽に使えるの。

逆に「お客さんに出す大事な文章を仕上げて」みたいな、質をしくじれない場面では、少し高くてもClaude Opus 4.8みたいな繊細さに定評のあるモデルを選ぶ。ここはコストより安心を取る、って割り切るんだ。

そして「分厚いマニュアルを読み込んで質問に答えるツール」を作るなら、コンテキスト2MのGemini 3.1 Proが第一候補。価格もクローズドの中では安めだから、長文系のサービスとは相性がいいんだよね。

こうやって「作業の性質」ごとにモデルを割り当てておくと、新しいモデルが出てきても「あ、これは大量処理枠の候補だな」「これは品質重視枠かも」って、自分の地図のどこに置けばいいかがすぐ分かる。だから情報に振り回されにくくなるんだ。

世間では「結局どれか1つに絞らなきゃ」って思いがちだと思う。でもわたしは、複数を使い分けるのが今のいちばん賢いやり方だと思ってるんだ。

なぜなら、AIは1つ契約したら他が使えなくなるわけじゃないから。コストを抑えたい大量処理にはGLM-5.2、長文にはGemini、繊細な仕上がりが要る場面にはClaude、みたいに、場面ごとに使い分ければいいんだよね。

だからわたしたちが意識しておくといいのは、「一番賢いモデルを当てる」ゲームから降りること。代わりに「この用途にはこれ」っていう自分なりの地図を持っておくと、新しいモデルが出てもその地図に当てはめるだけで済んで、すごくラクになるよ。

まとめ：迷ったら、賢さより先に価格と文脈量を見る

ここまでをまとめるね。AIモデルが多すぎて迷うときは、移り変わる「賢さの順位」を追いかけるより、確認できる「価格」と「コンテキスト長」から見たほうが、ずっと現実的に選べるよ、っていう話だったんだ。

価格は各社がはっきり公開してる動かない事実だから、まずここを見る。GPT-5.5は出力30ドル、Claude Opus 4.8は25ドル、Gemini 3.1 Proは12ドル、GLM-5.2は4.40ドル。出力で7倍近い差があるから、たくさん使う人ほどここが効いてくる。

コンテキスト長は使い方そのものを決める。Gemini 3.1 Proの2Mが最大級で、長文まるごと処理に強い。ただ20万トークン超で単価が上がる点は計算に入れておくのが大事だったね。

そして用途を分ければ、完璧な万能モデルを探さなくて済む。コスト重視ならGLM-5.2、長文ならGemini、丁寧な作業ならClaude、実績と情報の豊富さならGPT-5.5、っていう自分なりの地図を持っておけばいいんだ。

これってわたしたちにとっては、けっこう気がラクになる話だと思うの。だって「一番を当てなきゃ」っていうプレッシャーから解放されるから。

具体的に言うとね、次に新しいモデルのニュースを見たときは、「賢いらしい」で飛びつく前に、「いくらで使えて、どれだけの文脈を渡せるんだろう？」って確認するクセをつけてみて。それだけで、選び方がぐっと冷静になるはずだよ。

賢さ比べの話は派手で面白いけど、実際に使うわたしたちにとって本当に効いてくるのは、こういう地味な事実のほうだったりするんだ。だからわたしも、これからも価格や仕様みたいな「確認できる事実」をちゃんと追って、またかみ砕いてシェアするね。一緒に、賢いモデルの選び方をアップデートしていこう。

関連記事: ChatGPT・Gemini・Claudeを徹底比較

ソース: