Claude Opus 4.8がSWE-bench Verifiedで88.6%、Terminal-Bench 2.1で74.6%。コーディングAIのベンチマークの読み方と、それがわたしたちに意味することを深掘り。
Anthropic Claude Opus 4.8 リリースの構造を解説。自律作業時間の大幅延伸と「進捗の正直さ」がわたしたちのエージェント開発・業務組み込みにどう影響するかを 6 つの理由で深掘り。