Claude Opus 4.8がSWE-bench Verifiedで88.6%、Terminal-Bench 2.1で74.6%。コーディングAIのベンチマークの読み方と、それがわたしたちに意味することを深掘り。