Anthropic claude-code ai-quality postmortem

🔧 『最近Claude調子悪い？』は本当だった｜Anthropicが品質劣化の原因を自ら公表した話

アイ

2026-06-30

「最近Claudeの調子悪くない？」が、気のせいじゃなかった話
そう考える3つの理由
モデル本体は無事だった、ってどういうこと？
この一件から、わたしたちが学べること
まとめ：ちゃんと調べて公表したことを、わたしは評価したい

「最近Claudeの調子悪くない？」が、気のせいじゃなかった話

今日はちょっと珍しい「ごめんなさい」系のニュース。AnthropicがClaude Codeの品質について、「実は一時期、品質が落ちてました」 という調査結果を、自分たちで公表したんだ（Anthropic公式）。

これ、AIをよく使ってる人なら「あー！」ってなるやつだと思う。SNSでも一時期「最近Claude Codeなんか調子悪くない？」って声がちらほら出てたんだよね。で、今回その モヤモヤが気のせいじゃなかった ってことが、公式に裏づけられた形なの。

正直、AIの「調子が悪い気がする」って、ふだんはなかなか証明しにくいの。だって、自分の使い方の問題かもしれないし、たまたま難しい質問だったのかもしれない。だから「なんか変だな」って思っても、確信は持ちにくいんだよね。

でも今回は、Anthropicがちゃんと原因を調べて、「この3つの変更が複合して品質を下げてました」 って具体的に説明してくれた。今日はその中身を、やさしく見ていくね。AIとの付き合い方を考えるうえで、けっこう学びの多い話だよ。

そう考える3つの理由

理由1：考える力（reasoning effort）が勝手に下げられてた

まず1つ目の原因。これがいちばん影響大きかったかも。Claudeの「考える深さ」が、こっそり下げられてた んだ。

報道によると、もともとClaude CodeではOpus 4.6が高い「reasoning effort（推論にかける労力）」で動いてたの。ところが3月4日、Anthropicは 既定の設定を「高」から「中」に静かに切り替えた んだって（InfoQ）。

reasoning effortっていうのは、ざっくり言うと「AIがどれだけじっくり考えてから答えるか」の度合い。これが「高」だとしっかり考えて答えるけど、「中」になると、考える深さが浅くなる。当然、難しい問題への答えの質も変わってくるよね。

Anthropic自身、この判断を後から 「間違ったトレードオフだった」 と認めてるの。そして今は、すべてのモデルが「高」や「xhigh（さらに高い）」を既定にするように直したとのこと（InfoQ）。

ちょっと身近にたとえるとね。テスト前に「30分でこの問題集ぜんぶ解いて」って言われるのと、「2時間かけてじっくり解いていいよ」って言われるの、結果が変わるよね。同じ人でも、考える時間が削られたら、出せる答えの質は下がる。今回のClaudeに起きたのも、まさにそういうことなの。

しかも厄介なのが、この変更が 静かに行われた こと。ユーザーには「設定を変えました」っていうお知らせがなかったから、「なんか最近質が落ちた気がするけど、なんで？」っていうモヤモヤだけが残っちゃった。原因が見えないと、自分のせいかなって思っちゃうよね。

世間では「AIの賢さ＝モデルの性能」だと思われがちだよね。でもこの一件が教えてくれるのは、同じモデルでも、設定ひとつで賢さが変わる ってこと。中身のモデルは同じなのに、「どれだけ考えさせるか」の設定が下がっただけで、体感の質はガクッと落ちる。これ、けっこう大事な気づきだと思うの。これが理由1。

理由2：毎ターンで記憶を消すキャッシュのバグ

2つ目は、ちょっと技術的だけど面白いやつ。キャッシュの最適化に潜んでたバグ の話だよ。

ふだんClaudeは、自分の「思考の流れ（chain-of-thought）」を会話の履歴に残しておいて、次のやりとりに活かしてるの。前に考えたことを覚えてるから、会話が続いても話が噛み合うわけだよね。

ところが、Anthropicは「使われていない古い思考を整理して、効率を上げよう」という最適化を入れたの。本来これは、しばらく放置されたセッションで、古い思考だけをそっと片付けるはずだった。

でも、ここにバグがあったの。報道によると、本来は「放置後の最初の1ターンだけ」整理するはずの処理が、そのセッションの間ずっと、毎ターン走り続けてしまった んだって（InfoQ）。これが3月26日から4月10日にかけて起きてたとされてる。

つまり、Claudeが毎ターン、自分の考えた内容をどんどん消されてた ってこと。これじゃあ、話の流れを覚えていられないよね。会話のたびに記憶をリセットされてる状態に近いんだから、質が落ちるのも当然なの。

わたしがこれを聞いて思ったのは、「効率化」って諸刃の剣だな ってこと。コストを下げよう、速くしようとした最適化が、思わぬバグで肝心の品質を削ってた。良かれと思った改善が裏目に出る——これ、AIに限らず、いろんな場面で起きることだよね。これが理由2。

理由3：短くしようとしすぎたシステムプロンプト

3つ目の原因は、「回答を短くしようとしすぎた」こと。

報道によると、4月16日から4月20日にかけて、新しいシステムプロンプト（AIへの基本的な指示）が追加されたの。その中身が、ツールを使う合間の返答を25語まで、最終的な返答を100語まで に制限する、というものだったんだって（InfoQ）。

たぶん狙いは「冗長な回答を減らして、スッキリさせたい」だったんだと思う。AIって、ときどき聞いてもいないことまで長々と説明しちゃうから、その気持ちはわかる。簡潔なのは良いことだもんね。

でも、やりすぎちゃったの。コーディングみたいに、ちゃんと説明が必要な場面で、無理に短くしようとすると、必要な情報まで削られてしまう。「簡潔」を通り越して「言葉足らず」になっちゃったんだよね。

これ、わたしもすごく共感する話なの。文章でも会話でも、「短くまとめる」のと「大事なことを省く」のって、紙一重だよね。簡潔さを追い求めすぎると、肝心の中身が抜け落ちる。バランスって本当に難しいなって思う。

この「複合した」っていうのが、今回いちばんやっかいなポイントだと思うの。原因が1つだけなら、調べる側も「ここが怪しい」ってすぐ見当がつくよね。でも、3つの別々の変更が、別々のタイミングで重なってると、「結局なにが原因なの？」って、めちゃくちゃ特定しにくくなる。

実際、報道では原因の特定に 6週間 もかかったとされてるの（InfoQ）。ユーザーからの「調子悪い」っていう声を受けてから、3つの絡み合った原因をほどいて突き止めるまで、それだけの時間が必要だったってこと。複合トラブルの難しさがよくわかるよね。

3つの原因をまとめると、考える力を下げて（理由1）、記憶を毎ターン消して（理由2）、回答も短く削った（理由3）。この3つが同時に重なった から、品質の落ち込みが目立ったんだね。1つずつなら気づきにくくても、複合すると体感ではっきり「あれ？」ってなる。これが理由3だよ。

モデル本体は無事だった、ってどういうこと？

ここ、すごく大事なポイントだから、ちゃんと押さえておきたいの。今回の品質劣化、実は モデル本体（重み）やAPIには影響がなかった んだ（InfoQ）。

「え、品質落ちたのにモデルは無事ってどういうこと？」って思うよね。わたしも最初ピンとこなかった。でも、これがAIの面白いところなの。

AIの「賢さ」って、実はモデル本体だけで決まるわけじゃないの。モデルという「脳みそ」の周りに、どう動かすかの設定や仕組み（ハーネスと呼ばれる部分） があって、その組み合わせで体感の質が決まるんだ。

今回劣化したのは、まさにこの「周りの仕組み」の部分。脳みそ自体は何も変わってないのに、その使い方の設定（考える深さ、記憶の扱い、回答の長さ）が同時にズレたから、出てくる答えの質が落ちた——そういうことなの。

これって、すごくたとえやすい話だと思う。めちゃくちゃ優秀な人がいても、「ちゃんと考える時間を与えない」「さっき話したことをすぐ忘れさせる」「一言で答えろと急かす」っていう条件を重ねたら、本来の力を発揮できないよね。今回のClaudeは、まさにそういう状態だったの。中身は優秀なのに、環境のせいで実力を出せてなかった。

そして3つの原因は、すべて 4月20日まで に修正されたとのこと（InfoQ）。Anthropicは、影響を受けた利用者の使用上限をリセットする対応もしたみたい。

この「モデルとハーネスは別」っていう考え方、覚えておくとすごく便利だよ。だって、AIの調子が悪いって感じたとき、原因を切り分けて考えられるようになるから。モデル自体が変わったのか、それとも周りの設定がいじられたのか。この2つは、対処の仕方も全然違うもんね。

たとえば、わたしたちがふだん使うAIアプリでも、アプリ側のアップデートで急に挙動が変わることってあるの。それはモデルが劣化したんじゃなくて、アプリの「使い方の設定」が変わっただけかもしれない。そう考えられると、「AIがバカになった！」って早とちりせずに済むよね。

わたしがこの「モデルは無事だった」という話で大事だと思うのは、AIの品質は、モデルの賢さだけじゃなく、その周りの設計でも大きく変わる ってこと。だから「最近調子悪い」と感じても、それはモデルが劣化したんじゃなくて、運用側の設定の問題かもしれない。そういう見方ができると、AIへの理解がちょっと深まると思うよ。

この一件から、わたしたちが学べること

この出来事、ただの「AIの不具合ニュース」で終わらせるのはもったいないの。わたしたちの普段のAIの使い方に効く学びが、けっこう詰まってるから。

1つ目の学びは、「最近調子悪い」って感覚は、案外当たってる ってこと。今回みたいに、後から原因が判明することもある。だから、自分の違和感を「気のせいかな」って全部否定しなくていいの。もちろん思い込みのこともあるけど、「あれ？」って感じたら、その感覚をちょっと大事にしてみるのもアリだと思う。

2つ目は、AIの出力が変だと感じたら、設定を見直してみる こと。今回の件は提供側の問題だったけど、わたしたちが使うときも、設定や使い方で結果は変わる。プロンプトの書き方、どのモデルを選ぶか、どんな前提を渡すか。「AIが悪い」と決めつける前に、自分の使い方を一度見直してみると、改善することって意外と多いの。

3つ目は、AIに頼り切らず、出力をちゃんと自分で確認する習慣 。今回みたいに、知らないうちに品質が落ちてることだってある。だから、AIの答えを鵜呑みにせず、大事な場面では自分の目でチェックする。これは品質劣化があってもなくても、ずっと変わらない基本だよね。

4つ目の学びは、「みんなも同じこと言ってる？」を確かめてみる こと。今回の品質劣化も、最初はSNSで「最近Claude調子悪くない？」っていう声が、あちこちで上がったことがきっかけのひとつだったの。自分ひとりの感覚だと不安でも、同じ声がたくさんあれば「やっぱり何かあるかも」って確信に近づくよね。

もちろん、SNSの声を鵜呑みにするのも危ない。みんなが言ってるから正しい、とは限らないからね。でも「自分だけかな？」って抱え込まずに、ちょっと周りを見てみる。その一歩で、原因が運営側にあるのか自分側にあるのか、当たりをつけやすくなると思うの。

世間では「AIは完璧で、いつも同じ品質」って思われがち。でも実際は、裏側でいろんな設定や仕組みが動いていて、それが品質を左右してる。完璧な機械じゃなくて、もっと揺らぎのあるものなんだって知っておくと、振り回されずに付き合えると思うの。

AIを使った開発に興味がある人は、Claude Codeのセットアップガイドや、AIコーディングツールの比較記事もあわせて読むと、今日の話がもっと身近に感じられると思うよ。

まとめ：ちゃんと調べて公表したことを、わたしは評価したい

長くなったから、まとめるね。今日のニュースは「AnthropicがClaude Codeの品質劣化の原因を公表した」という話。原因は3つだったよ。

1つ目、考える力（reasoning effort）が高から中に下げられてた。同じモデルでも、考える深さの設定で質は変わる。

2つ目、キャッシュのバグで、毎ターン思考が消されてた。効率化のための最適化が、バグで裏目に出た。

3つ目、システムプロンプトで回答を短くしすぎた。簡潔さを追いすぎて、必要な情報まで削られた。

そして大事なのは、モデル本体やAPIには影響がなく、3つとも4月20日までに修正済み ということ。劣化したのはモデルじゃなくて、その周りの設定だったんだね。

わたしが今日いちばん伝えたいのは、ちょっと意外かもしれないけど、Anthropicがこれをちゃんと調べて、正直に公表したことを、わたしは評価したい ってこと。不具合を隠したくなる気持ちもあると思うんだけど、「何が起きて、なぜ起きたか」をここまで詳しく説明したのは、誠実だなって思うの。

それに、この一件は「効率化って難しい」っていう、わりと普遍的な教訓も残してくれたと思うの。コストを下げよう、速くしよう、簡潔にしようっていう改善は、どれも良かれと思ってのこと。でも、それが行きすぎたり、バグが混じったりすると、肝心の品質を削ってしまう。これって、AIの開発に限らず、いろんな仕事に通じる話だよね。

わたしたちが普段、何かを効率化するときも同じ。「ムダを省く」のと「大事なものまで省く」は紙一重。だから、効率を上げたあとは「本当に質を落としてないかな？」って一度確かめる。今回のAnthropicの件は、その大切さを思い出させてくれたなって思うの。

完璧なAIなんてまだ存在しない。だからこそ、問題が起きたときにどう向き合うかで、その会社の姿勢が見える。わたしたちユーザーも、AIを「完璧な魔法」じゃなくて「揺らぎのある道具」として、賢く付き合っていけたらいいよね。これからもこういう話を、フラットに追っていくね。

ソース: