Claude Opus 4.6 모델 분석: 코딩/분석/글쓰기 실제 성능은?

Claude Opus 4.6은 Anthropic이 2026년 2월 5일에 출시한 최신 플래그십 모델이다. Opus 4.5의 후속 모델로, 코딩, 에이전트 작업, 장문 컨텍스트 처리에서 개선을 이뤘다. 이 글에서는 공식 발표와 벤치마크를 기반으로 실제 성능을 정리한다.

공식 발표: https://www.anthropic.com/news/claude-opus-4-6

핵심 스펙

항목	Opus 4.5	Opus 4.6
컨텍스트 윈도우	200K 토큰	200K (기본) / 1M (베타)
최대 출력	64K 토큰	128K 토큰
사고 모드	Extended thinking	Adaptive thinking
API 모델 ID	claude-opus-4-5	claude-opus-4-6
가격 (입력/출력)	$5 / $25 per MTok	$5 / $25 per MTok

가격이 동일하면서 성능이 올라간 점이 주목할 만하다. 다만 1M 컨텍스트 윈도우는 200K 이상 구간에서 입력 $10/MTok, 출력 $37.50/MTok으로 프리미엄 가격이 적용된다.

벤치마크 성능

코딩/에이전트

벤치마크	Opus 4.6	Opus 4.5	GPT-5.2	Gemini 3 Pro
Terminal-Bench 2.0	65.4%	59.8%	64.7%	56.2%
SWE-bench Verified	80.8%	80.9%	80.0%	76.2%
OSWorld	72.7%	66.3%	--	--
BrowseComp	84.0%	67.8%	77.9%	59.2%

Terminal-Bench 2.0에서 업계 최고 점수를 기록했고, BrowseComp(정보 검색 능력)에서도 1위다. 단, SWE-bench Verified에서는 Opus 4.5가 0.1%p 더 높다 (80.9% vs 80.8%). 이건 오차 범위 내의 차이로 보인다.

추론/지식

벤치마크	Opus 4.6	Opus 4.5	GPT-5.2	Gemini 3 Pro
GDPval-AA (Elo)	1606	1416	1462	1195
HLE (도구 사용)	53.1%	43.4%	50.0%	45.8%
ARC AGI 2	68.8%	37.6%	54.2%	45.1%
GPQA Diamond	91.3%	87.0%	93.2%	91.9%
BigLaw Bench	90.2%	--	--	--
MMLU	91.1%	90.8%	89.6%	91.8%

GDPval-AA(경제적으로 가치 있는 지식 작업 평가)에서 GPT-5.2를 144 Elo 포인트 차이로 앞선다. ARC AGI 2에서는 Opus 4.5 대비 거의 2배 가까운 점수(68.8% vs 37.6%)를 보여 추론 능력이 크게 향상됐다.

반면 GPQA Diamond(대학원 수준 과학 문제)에서는 GPT-5.2 Pro(93.2%)와 Gemini 3 Pro(91.9%)보다 약간 뒤처진다.

Adaptive Thinking

Opus 4.6의 주요 변경점 중 하나가 "adaptive thinking"이다. 기존 extended thinking에서는 budget_tokens를 수동 설정했지만, adaptive thinking은 모델이 문제 복잡도에 따라 자동으로 사고 깊이를 조절한다.

4단계 effort 레벨을 제공한다:
- low: 단순 분류, 추출 등에 적합. 사고 과정 생략
- medium: 적당한 추론이 필요한 작업
- high (기본값): 대부분의 프로덕션 워크로드에 권장
- max: 최고 난이도 문제용. Opus 4.6에서 새로 추가. 레이턴시가 높지만 최대 추론 성능

// API 사용 예시
const response = await anthropic.messages.create({
  model: "claude-opus-4-6",
  max_tokens: 16000,
  thinking: { type: "adaptive" },
  // effort: "high", // low | medium | high | max
  messages: [{ role: "user", content: "문제를 분석해주세요..." }]
});

잘하는 것

에이전트 작업: 복잡한 멀티스텝 작업을 자율적으로 수행. 서브에이전트 병렬 실행, 도구 호출 체인 등에서 안정적
코딩: 대규모 코드베이스 탐색, 디버깅, 코드 리뷰에서 업계 최고 수준
긴 컨텍스트 처리: 1M 토큰 베타에서 MRCR v2 벤치마크 256K 기준 93% 정확도
법률 분석: BigLaw Bench 90.2%로 법률 추론에 강함
멀티도메인 분석: 금융, 기술, 법률 문서를 동시에 분석하는 작업

약한 부분

과학 문제 (GPQA): GPT-5.2, Gemini 3 Pro보다 소폭 낮음
비용: 입력 $5/출력 $25 per MTok은 Sonnet($3/$15)이나 Haiku($1/$5)보다 상당히 비쌈
레이턴시: effort가 high/max일 때 응답이 느릴 수 있음. 단순 작업에는 과도한 추론을 할 때가 있어 effort를 medium으로 낮추는 것을 Anthropic이 권장
Prefilling 제거: Opus 4.6에서 assistant 메시지 프리필링이 제거됨. JSON 출력 등에 프리필링을 쓰던 개발자는 structured outputs로 마이그레이션 필요

가격 비교

모델	입력 (per MTok)	출력 (per MTok)
Claude Opus 4.6	$5	$25
Claude Sonnet 4.5	$3	$15
Claude Haiku 4.5	$1	$5

배치 처리 시 50% 할인, 프롬프트 캐싱으로 최대 90% 절감 가능.

정리

Opus 4.6은 코딩과 에이전트 작업에서 현재 업계 최고 수준의 모델이다. 특히 장시간 자율 작업과 대규모 코드베이스 작업에 강점이 있다. 단, 비용이 높고 단순 작업에는 Sonnet이나 Haiku가 더 효율적이다. 용도에 맞게 모델을 선택하는 것이 중요하다.