ホーム > カテゴリ > SWE Bench

SWE Bench

考察記事

Claude Opus 4.8がSWE-bench Verifiedで88.6％、Terminal-Bench 2.1で74.6％。コーディングAIのベンチマークの読み方と、それがわたしたちに意味することを深掘り。