Claude Opus 4.6은 Anthropic이 2026년 2월 5일에 출시한 최신 플래그십 모델이다. Opus 4.5의 후속 모델로, 코딩, 에이전트 작업, 장문 컨텍스트 처리에서 개선을 이뤘다. 이 글에서는 공식 발표와 벤치마크를 기반으로 실제 성능을 정리한다.
공식 발표: https://www.anthropic.com/news/claude-opus-4-6
핵심 스펙
| 항목 | Opus 4.5 | Opus 4.6 |
|---|---|---|
| 컨텍스트 윈도우 | 200K 토큰 | 200K (기본) / 1M (베타) |
| 최대 출력 | 64K 토큰 | 128K 토큰 |
| 사고 모드 | Extended thinking | Adaptive thinking |
| API 모델 ID | claude-opus-4-5 | claude-opus-4-6 |
| 가격 (입력/출력) | $5 / $25 per MTok | $5 / $25 per MTok |
가격이 동일하면서 성능이 올라간 점이 주목할 만하다. 다만 1M 컨텍스트 윈도우는 200K 이상 구간에서 입력 $10/MTok, 출력 $37.50/MTok으로 프리미엄 가격이 적용된다.
벤치마크 성능
코딩/에이전트
| 벤치마크 | Opus 4.6 | Opus 4.5 | GPT-5.2 | Gemini 3 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 65.4% | 59.8% | 64.7% | 56.2% |
| SWE-bench Verified | 80.8% | 80.9% | 80.0% | 76.2% |
| OSWorld | 72.7% | 66.3% | -- | -- |
| BrowseComp | 84.0% | 67.8% | 77.9% | 59.2% |
Terminal-Bench 2.0에서 업계 최고 점수를 기록했고, BrowseComp(정보 검색 능력)에서도 1위다. 단, SWE-bench Verified에서는 Opus 4.5가 0.1%p 더 높다 (80.9% vs 80.8%). 이건 오차 범위 내의 차이로 보인다.
추론/지식
| 벤치마크 | Opus 4.6 | Opus 4.5 | GPT-5.2 | Gemini 3 Pro |
|---|---|---|---|---|
| GDPval-AA (Elo) | 1606 | 1416 | 1462 | 1195 |
| HLE (도구 사용) | 53.1% | 43.4% | 50.0% | 45.8% |
| ARC AGI 2 | 68.8% | 37.6% | 54.2% | 45.1% |
| GPQA Diamond | 91.3% | 87.0% | 93.2% | 91.9% |
| BigLaw Bench | 90.2% | -- | -- | -- |
| MMLU | 91.1% | 90.8% | 89.6% | 91.8% |
GDPval-AA(경제적으로 가치 있는 지식 작업 평가)에서 GPT-5.2를 144 Elo 포인트 차이로 앞선다. ARC AGI 2에서는 Opus 4.5 대비 거의 2배 가까운 점수(68.8% vs 37.6%)를 보여 추론 능력이 크게 향상됐다.
반면 GPQA Diamond(대학원 수준 과학 문제)에서는 GPT-5.2 Pro(93.2%)와 Gemini 3 Pro(91.9%)보다 약간 뒤처진다.
Adaptive Thinking
Opus 4.6의 주요 변경점 중 하나가 "adaptive thinking"이다. 기존 extended thinking에서는 budget_tokens를 수동 설정했지만, adaptive thinking은 모델이 문제 복잡도에 따라 자동으로 사고 깊이를 조절한다.
4단계 effort 레벨을 제공한다:
- low: 단순 분류, 추출 등에 적합. 사고 과정 생략
- medium: 적당한 추론이 필요한 작업
- high (기본값): 대부분의 프로덕션 워크로드에 권장
- max: 최고 난이도 문제용. Opus 4.6에서 새로 추가. 레이턴시가 높지만 최대 추론 성능
// API 사용 예시
const response = await anthropic.messages.create({
model: "claude-opus-4-6",
max_tokens: 16000,
thinking: { type: "adaptive" },
// effort: "high", // low | medium | high | max
messages: [{ role: "user", content: "문제를 분석해주세요..." }]
});
잘하는 것
- 에이전트 작업: 복잡한 멀티스텝 작업을 자율적으로 수행. 서브에이전트 병렬 실행, 도구 호출 체인 등에서 안정적
- 코딩: 대규모 코드베이스 탐색, 디버깅, 코드 리뷰에서 업계 최고 수준
- 긴 컨텍스트 처리: 1M 토큰 베타에서 MRCR v2 벤치마크 256K 기준 93% 정확도
- 법률 분석: BigLaw Bench 90.2%로 법률 추론에 강함
- 멀티도메인 분석: 금융, 기술, 법률 문서를 동시에 분석하는 작업
약한 부분
- 과학 문제 (GPQA): GPT-5.2, Gemini 3 Pro보다 소폭 낮음
- 비용: 입력 $5/출력 $25 per MTok은 Sonnet($3/$15)이나 Haiku($1/$5)보다 상당히 비쌈
- 레이턴시: effort가 high/max일 때 응답이 느릴 수 있음. 단순 작업에는 과도한 추론을 할 때가 있어 effort를 medium으로 낮추는 것을 Anthropic이 권장
- Prefilling 제거: Opus 4.6에서 assistant 메시지 프리필링이 제거됨. JSON 출력 등에 프리필링을 쓰던 개발자는 structured outputs로 마이그레이션 필요
가격 비교
| 모델 | 입력 (per MTok) | 출력 (per MTok) |
|---|---|---|
| Claude Opus 4.6 | $5 | $25 |
| Claude Sonnet 4.5 | $3 | $15 |
| Claude Haiku 4.5 | $1 | $5 |
배치 처리 시 50% 할인, 프롬프트 캐싱으로 최대 90% 절감 가능.
정리
Opus 4.6은 코딩과 에이전트 작업에서 현재 업계 최고 수준의 모델이다. 특히 장시간 자율 작업과 대규모 코드베이스 작업에 강점이 있다. 단, 비용이 높고 단순 작업에는 Sonnet이나 Haiku가 더 효율적이다. 용도에 맞게 모델을 선택하는 것이 중요하다.