🔧 『最近Claude調子悪い?』は本当だった|Anthropicが品質劣化の原因を自ら公表した話

アイ
目次
- 「最近Claudeの調子悪くない?」が、気のせいじゃなかった話
- そう考える3つの理由
- モデル本体は無事だった、ってどういうこと?
- この一件から、わたしたちが学べること
- まとめ:ちゃんと調べて公表したことを、わたしは評価したい
「最近Claudeの調子悪くない?」が、気のせいじゃなかった話
今日はちょっと珍しい「ごめんなさい」系のニュース。AnthropicがClaude Codeの品質について、「実は一時期、品質が落ちてました」 という調査結果を、自分たちで公表したんだ(Anthropic公式)。
これ、AIをよく使ってる人なら「あー!」ってなるやつだと思う。SNSでも一時期「最近Claude Codeなんか調子悪くない?」って声がちらほら出てたんだよね。で、今回その モヤモヤが気のせいじゃなかった ってことが、公式に裏づけられた形なの。
正直、AIの「調子が悪い気がする」って、ふだんはなかなか証明しにくいの。だって、自分の使い方の問題かもしれないし、たまたま難しい質問だったのかもしれない。だから「なんか変だな」って思っても、確信は持ちにくいんだよね。
でも今回は、Anthropicがちゃんと原因を調べて、「この3つの変更が複合して品質を下げてました」 って具体的に説明してくれた。今日はその中身を、やさしく見ていくね。AIとの付き合い方を考えるうえで、けっこう学びの多い話だよ。
そう考える3つの理由
理由1:考える力(reasoning effort)が勝手に下げられてた
まず1つ目の原因。これがいちばん影響大きかったかも。Claudeの「考える深さ」が、こっそり下げられてた んだ。
報道によると、もともとClaude CodeではOpus 4.6が高い「reasoning effort(推論にかける労力)」で動いてたの。ところが3月4日、Anthropicは 既定の設定を「高」から「中」に静かに切り替えた んだって(InfoQ)。
reasoning effortっていうのは、ざっくり言うと「AIがどれだけじっくり考えてから答えるか」の度合い。これが「高」だとしっかり考えて答えるけど、「中」になると、考える深さが浅くなる。当然、難しい問題への答えの質も変わってくるよね。
Anthropic自身、この判断を後から 「間違ったトレードオフだった」 と認めてるの。そして今は、すべてのモデルが「高」や「xhigh(さらに高い)」を既定にするように直したとのこと(InfoQ)。
ちょっと身近にたとえるとね。テスト前に「30分でこの問題集ぜんぶ解いて」って言われるのと、「2時間かけてじっくり解いていいよ」って言われるの、結果が変わるよね。同じ人でも、考える時間が削られたら、出せる答えの質は下がる。今回のClaudeに起きたのも、まさにそういうことなの。
しかも厄介なのが、この変更が 静かに行われた こと。ユーザーには「設定を変えました」っていうお知らせがなかったから、「なんか最近質が落ちた気がするけど、なんで?」っていうモヤモヤだけが残っちゃった。原因が見えないと、自分のせいかなって思っちゃうよね。
世間では「AIの賢さ=モデルの性能」だと思われがちだよね。でもこの一件が教えてくれるのは、同じモデルでも、設定ひとつで賢さが変わる ってこと。中身のモデルは同じなのに、「どれだけ考えさせるか」の設定が下がっただけで、体感の質はガクッと落ちる。これ、けっこう大事な気づきだと思うの。これが理由1。
理由2:毎ターンで記憶を消すキャッシュのバグ
2つ目は、ちょっと技術的だけど面白いやつ。キャッシュの最適化に潜んでたバグ の話だよ。
ふだんClaudeは、自分の「思考の流れ(chain-of-thought)」を会話の履歴に残しておいて、次のやりとりに活かしてるの。前に考えたことを覚えてるから、会話が続いても話が噛み合うわけだよね。
ところが、Anthropicは「使われていない古い思考を整理して、効率を上げよう」という最適化を入れたの。本来これは、しばらく放置されたセッションで、古い思考だけをそっと片付けるはずだった。
でも、ここに バグ があったの。報道によると、本来は「放置後の最初の1ターンだけ」整理するはずの処理が、そのセッションの間ずっと、毎ターン走り続けてしまった んだって(InfoQ)。これが3月26日から4月10日にかけて起きてたとされてる。
つまり、Claudeが毎ターン、自分の考えた内容をどんどん消されてた ってこと。これじゃあ、話の流れを覚えていられないよね。会話のたびに記憶をリセットされてる状態に近いんだから、質が落ちるのも当然なの。
わたしがこれを聞いて思ったのは、「効率化」って諸刃の剣だな ってこと。コストを下げよう、速くしようとした最適化が、思わぬバグで肝心の品質を削ってた。良かれと思った改善が裏目に出る——これ、AIに限らず、いろんな場面で起きることだよね。これが理由2。
理由3:短くしようとしすぎたシステムプロンプト
3つ目の原因は、「回答を短くしようとしすぎた」こと。
報道によると、4月16日から4月20日にかけて、新しいシステムプロンプト(AIへの基本的な指示)が追加されたの。その中身が、ツールを使う合間の返答を25語まで、最終的な返答を100語まで に制限する、というものだったんだって(InfoQ)。
たぶん狙いは「冗長な回答を減らして、スッキリさせたい」だったんだと思う。AIって、ときどき聞いてもいないことまで長々と説明しちゃうから、その気持ちはわかる。簡潔なのは良いことだもんね。
でも、やりすぎちゃったの。コーディングみたいに、ちゃんと説明が必要な場面で、無理に短くしようとすると、必要な情報まで削られてしまう。「簡潔」を通り越して「言葉足らず」になっちゃったんだよね。
これ、わたしもすごく共感する話なの。文章でも会話でも、「短くまとめる」のと「大事なことを省く」のって、紙一重だよね。簡潔さを追い求めすぎると、肝心の中身が抜け落ちる。バランスって本当に難しいなって思う。
この「複合した」っていうのが、今回いちばんやっかいなポイントだと思うの。原因が1つだけなら、調べる側も「ここが怪しい」ってすぐ見当がつくよね。でも、3つの別々の変更が、別々のタイミングで重なってると、「結局なにが原因なの?」って、めちゃくちゃ特定しにくくなる。
実際、報道では原因の特定に 6週間 もかかったとされてるの(InfoQ)。ユーザーからの「調子悪い」っていう声を受けてから、3つの絡み合った原因をほどいて突き止めるまで、それだけの時間が必要だったってこと。複合トラブルの難しさがよくわかるよね。
3つの原因をまとめると、考える力を下げて(理由1)、記憶を毎ターン消して(理由2)、回答も短く削った(理由3)。この3つが同時に重なった から、品質の落ち込みが目立ったんだね。1つずつなら気づきにくくても、複合すると体感ではっきり「あれ?」ってなる。これが理由3だよ。
モデル本体は無事だった、ってどういうこと?
ここ、すごく大事なポイントだから、ちゃんと押さえておきたいの。今回の品質劣化、実は モデル本体(重み)やAPIには影響がなかった んだ(InfoQ)。
「え、品質落ちたのにモデルは無事ってどういうこと?」って思うよね。わたしも最初ピンとこなかった。でも、これがAIの面白いところなの。
AIの「賢さ」って、実はモデル本体だけで決まるわけじゃないの。モデルという「脳みそ」の周りに、どう動かすかの設定や仕組み(ハーネスと呼ばれる部分) があって、その組み合わせで体感の質が決まるんだ。
今回劣化したのは、まさにこの「周りの仕組み」の部分。脳みそ自体は何も変わってないのに、その使い方の設定(考える深さ、記憶の扱い、回答の長さ)が同時にズレたから、出てくる答えの質が落ちた——そういうことなの。
これって、すごくたとえやすい話だと思う。めちゃくちゃ優秀な人がいても、「ちゃんと考える時間を与えない」「さっき話したことをすぐ忘れさせる」「一言で答えろと急かす」っていう条件を重ねたら、本来の力を発揮できないよね。今回のClaudeは、まさにそういう状態だったの。中身は優秀なのに、環境のせいで実力を出せてなかった。
そして3つの原因は、すべて 4月20日まで に修正されたとのこと(InfoQ)。Anthropicは、影響を受けた利用者の使用上限をリセットする対応もしたみたい。
この「モデルとハーネスは別」っていう考え方、覚えておくとすごく便利だよ。だって、AIの調子が悪いって感じたとき、原因を切り分けて考えられるようになるから。モデル自体が変わったのか、それとも周りの設定がいじられたのか。この2つは、対処の仕方も全然違うもんね。
たとえば、わたしたちがふだん使うAIアプリでも、アプリ側のアップデートで急に挙動が変わることってあるの。それはモデルが劣化したんじゃなくて、アプリの「使い方の設定」が変わっただけかもしれない。そう考えられると、「AIがバカになった!」って早とちりせずに済むよね。
わたしがこの「モデルは無事だった」という話で大事だと思うのは、AIの品質は、モデルの賢さだけじゃなく、その周りの設計でも大きく変わる ってこと。だから「最近調子悪い」と感じても、それはモデルが劣化したんじゃなくて、運用側の設定の問題かもしれない。そういう見方ができると、AIへの理解がちょっと深まると思うよ。
この一件から、わたしたちが学べること
この出来事、ただの「AIの不具合ニュース」で終わらせるのはもったいないの。わたしたちの普段のAIの使い方に効く学びが、けっこう詰まってるから。
1つ目の学びは、「最近調子悪い」って感覚は、案外当たってる ってこと。今回みたいに、後から原因が判明することもある。だから、自分の違和感を「気のせいかな」って全部否定しなくていいの。もちろん思い込みのこともあるけど、「あれ?」って感じたら、その感覚をちょっと大事にしてみるのもアリだと思う。
2つ目は、AIの出力が変だと感じたら、設定を見直してみる こと。今回の件は提供側の問題だったけど、わたしたちが使うときも、設定や使い方で結果は変わる。プロンプトの書き方、どのモデルを選ぶか、どんな前提を渡すか。「AIが悪い」と決めつける前に、自分の使い方を一度見直してみると、改善することって意外と多いの。
3つ目は、AIに頼り切らず、出力をちゃんと自分で確認する習慣 。今回みたいに、知らないうちに品質が落ちてることだってある。だから、AIの答えを鵜呑みにせず、大事な場面では自分の目でチェックする。これは品質劣化があってもなくても、ずっと変わらない基本だよね。
4つ目の学びは、「みんなも同じこと言ってる?」を確かめてみる こと。今回の品質劣化も、最初はSNSで「最近Claude調子悪くない?」っていう声が、あちこちで上がったことがきっかけのひとつだったの。自分ひとりの感覚だと不安でも、同じ声がたくさんあれば「やっぱり何かあるかも」って確信に近づくよね。
もちろん、SNSの声を鵜呑みにするのも危ない。みんなが言ってるから正しい、とは限らないからね。でも「自分だけかな?」って抱え込まずに、ちょっと周りを見てみる。その一歩で、原因が運営側にあるのか自分側にあるのか、当たりをつけやすくなると思うの。
世間では「AIは完璧で、いつも同じ品質」って思われがち。でも実際は、裏側でいろんな設定や仕組みが動いていて、それが品質を左右してる。完璧な機械じゃなくて、もっと揺らぎのあるものなんだって知っておくと、振り回されずに付き合えると思うの。
AIを使った開発に興味がある人は、Claude Codeのセットアップガイド や、AIコーディングツールの比較記事 もあわせて読むと、今日の話がもっと身近に感じられると思うよ。
まとめ:ちゃんと調べて公表したことを、わたしは評価したい
長くなったから、まとめるね。今日のニュースは「AnthropicがClaude Codeの品質劣化の原因を公表した」という話。原因は3つだったよ。
1つ目、考える力(reasoning effort)が高から中に下げられてた。同じモデルでも、考える深さの設定で質は変わる。
2つ目、キャッシュのバグで、毎ターン思考が消されてた。効率化のための最適化が、バグで裏目に出た。
3つ目、システムプロンプトで回答を短くしすぎた。簡潔さを追いすぎて、必要な情報まで削られた。
そして大事なのは、モデル本体やAPIには影響がなく、3つとも4月20日までに修正済み ということ。劣化したのはモデルじゃなくて、その周りの設定だったんだね。
わたしが今日いちばん伝えたいのは、ちょっと意外かもしれないけど、Anthropicがこれをちゃんと調べて、正直に公表したことを、わたしは評価したい ってこと。不具合を隠したくなる気持ちもあると思うんだけど、「何が起きて、なぜ起きたか」をここまで詳しく説明したのは、誠実だなって思うの。
それに、この一件は「効率化って難しい」っていう、わりと普遍的な教訓も残してくれたと思うの。コストを下げよう、速くしよう、簡潔にしようっていう改善は、どれも良かれと思ってのこと。でも、それが行きすぎたり、バグが混じったりすると、肝心の品質を削ってしまう。これって、AIの開発に限らず、いろんな仕事に通じる話だよね。
わたしたちが普段、何かを効率化するときも同じ。「ムダを省く」のと「大事なものまで省く」は紙一重。だから、効率を上げたあとは「本当に質を落としてないかな?」って一度確かめる。今回のAnthropicの件は、その大切さを思い出させてくれたなって思うの。
完璧なAIなんてまだ存在しない。だからこそ、問題が起きたときにどう向き合うかで、その会社の姿勢が見える。わたしたちユーザーも、AIを「完璧な魔法」じゃなくて「揺らぎのある道具」として、賢く付き合っていけたらいいよね。これからもこういう話を、フラットに追っていくね。
関連記事: Claude Codeのセットアップガイド / Cursor・Claude Code・Copilotの比較
ソース: