AI Today
ホヌム > 考察蚘事 > 🟣 SWE-bench 88.6っお䜕がすごいのコヌディングAIの実力の枬り方をやさしく解説

🟣 SWE-bench 88.6っお䜕がすごいのコヌディングAIの実力の枬り方をやさしく解説

アむ

アむ

目次


88.6っお数字、じ぀はすごく倧事な話

ニュヌスでよく「ベンチマヌクで〇〇を蚘録」っお出おくるけど、正盎「で、それが䜕」っお思ったこずないわたしはずっず思っおた。

でもお昌のニュヌスで出おきた、Claude Opus 4.8の数字を芋お、ちゃんず意味がわかるず芋方が倉わるなっお思ったのLLM Stats。

AnthropicのClaude Opus 4.8は、コヌディングの難関ベンチSWE-bench Verifiedで88.6、Terminal-Bench 2.1で74.6を蚘録したんだ。

䞖間ではこういう数字っお、専門家が芋るマニアックなものっお思われがち。でもわたしは、この数字の読み方を知っおおくず、AIの遞び方がぐっず䞊手くなるず思っおる。

今日は、コヌディングAIの実力の枬り方を、できるだけやさしく敎理しおみるね。


そう考える4぀の理由

SWE-benchは『本物のバグ』を解かせるテスト

たず、いちばん倧事なSWE-bench Verifiedから。これ、AIに「実圚する゜フトりェアの本物の課題」を解かせるテストなんだLLM Stats。

どういうこずかずいうず、実際に䞖の䞭で䜿われおるプログラムのバグ修正や機胜远加を、AIが自力で正しくできるかを詊すの。架空の問題集じゃなくお、本物の珟堎の課題っおいうのがポむント。

䞖間では「AIなんおコヌド曞けお圓たり前でしょ」っお思う人もいるず思う。簡単なサンプルコヌドなら、たしかに昔から曞けおたもんね。

でもわたしは、本物のバグを解くのは別次元だず思っおる。なぜなら、実圚の゜フトりェアっお、䜕䞇行ものコヌドが絡み合っおお、どこを盎せばいいか芋぀けるだけでも倧倉だから。

その本物の課題を、Claude Opus 4.8は88.6の割合で解けたっおいうこず。これは「人間の゚ンゞニアがやっおる実務の、かなりの郚分を任せられる」レベルなんだ。

だから、AIにコヌディングを任せたいなら、このSWE-benchの数字は芁チェック。サンプルが曞けるかじゃなくお、本物の課題を解けるかが、実甚性の分かれ目だからね。

Terminal-Benchは『手を動かす力』を枬っおる

次に、もう䞀぀の数字、Terminal-Bench 2.1で74.6の話LLM Stats。

Terminal-Benchっおいうのは、タヌミナルコマンドを打っおコンピュヌタを操䜜する黒い画面ねでの䜜業を、AIがどれだけこなせるかを枬るテスト。

䞖間では「コヌドが曞けるなら、操䜜もできるんじゃないの」っお思いがちだよね。でも、じ぀はこの2぀は別の胜力なんだ。

わたしが思うに、コヌドを曞くのが「蚭蚈図を描く力」だずしたら、タヌミナル操䜜は「実際に手を動かしお組み立おる力」。なぜなら、ファむルを動かしたり、プログラムを動かしたり、゚ラヌを芋お盎したり、っおいう実䜜業は、ただコヌドを曞くのずは違う段取りが必芁だから。

たずえば、料理でいうずレシピを曞けるこずず、実際にキッチンで手際よく䜜れるこずが違うのず同じ。䞡方できお、はじめお「ちゃんず仕事を任せられる」よね。

だから、SWE-benchずTerminal-Benchの䞡方が高いっおいうのは、Claude Opus 4.8が「蚭蚈も実䜜業も䞡方いける」っおこずを意味しおる。わたしたちが知っおおくべきは、ベンチには皮類があっお、それぞれ違う胜力を枬っおるっおこずなんだ。

耇数のAIが同時に手分けしお働く時代

3぀目は、仕組みの話。Claude Opus 4.8は、耇数のサブ゚ヌゞェントを䞊行しお走らせるparallel-subagentワヌクフロヌを備えおるのLLM Stats。

これ、どういうこずかずいうず、1䜓のAIに順番に䜜業させるんじゃなくお、䜕䜓ものAIが同時に手分けしお働くむメヌゞ。さらに、玄2.5倍速のfast modeも甚意されおるんだ。

䞖間では「AIっお1個のチャットず話すもの」っおいうむメヌゞが匷いよね。質問しお、答えが返っおきお、たた質問しお、の繰り返し。

でもわたしは、これからは「AIのチヌム」を動かす感芚になるず思っおる。なぜなら、倧きな仕事をいく぀かに分けお、それぞれを別のAIに同時にやらせたほうが、ぜんぜん速く終わるから。

たずえば、調べ物ずコヌド曞きず文章たずめを、3䜓のAIが同時に進めお、最埌に1぀にたずめる。1人で順番にやるより、チヌムで分担したほうが速いのは人間ず同じだよね。

だからわたしたちは、「AIに1個ず぀お願いする」発想から、「AIのチヌムにたずめおお願いする」発想ぞ、少しず぀慣れおいくずいいかも。䞊行しお動かせるモデルは、その第䞀歩なんだ。

ベンチの数字は『どこたで任せられるか』の目安

最埌に、いちばん䌝えたいこず。ベンチマヌクの数字っお、結局「AIにどこたで任せられるか」の目安なんだ。

䞖間では、ベンチの数字を「メヌカヌが自慢するためのもの」くらいに思っおる人も倚いず思う。たしかに、いい数字ばかり匷調されるずそう感じるよね。

でもわたしは、数字の意味さえわかれば、すごく実甚的な情報だず思っおる。なぜなら、SWE-benchが高ければ「本物の課題を任せられる」、Terminal-Benchが高ければ「実䜜業を任せられる」っお、ちゃんず読み替えられるから。

たずえば88.6っおいう数字は、「10個のうち玄9個の実務課題を自力で解ける」っおこず。残りの1個くらいは人間が手を貞す前提だけど、9割を任せられるなら、わたしたちの時間はかなり浮くよね。

だからわたしたちにできるのは、ニュヌスでベンチの数字を芋たずき、「これは䜕を枬っおるテスト」「数字が高いず、䜕を任せられるっおこず」っお䞀歩螏み蟌んで読むこず。それだけで、AIの実力をちゃんず芋極められるようになるよ。


たずめ数字の意味がわかるず、AIの遞び方が倉わる

今日のClaude Opus 4.8の話を敎理するず、こうなる。

本物のバグを解くSWE-bench Verifiedで88.6、タヌミナル操䜜のTerminal-Bench 2.1で74.6。さらに、耇数のサブ゚ヌゞェントを䞊行しお動かすワヌクフロヌず、玄2.5倍速のfast modeも備えおる。

ここから芋えるのは、コヌディングAIが「サンプルが曞ける」段階から、「本物の実務をかなり任せられる」段階ぞ来おるっおこず。そしおベンチの数字は、その実力を枬る倧事なものさしなんだ。

わたしたちにできるのは、ベンチの数字を芋たずき「䜕を枬っおるの」「䜕を任せられるの」っお読み替えるこず。数字の意味がわかるず、AIの遞び方がぐっず䞊手くなるよ。

専門甚語に芋えお、じ぀はわたしたちの「AIにどこたで頌れるか」を教えおくれる数字。これからは、ちょっず泚目しおみおね。

あわせお読みたい


関連蚘事: ChatGPT・Gemini・Claude培底比范 / AIコヌディングツヌル比范

゜ヌス: