Claude Opus 4.6 모델 분석: 코딩/분석/글쓰기 실제 성능은?

Claude Opus 4.6은 Anthropic이 2026년 2월 5일에 출시한 최신 플래그십 모델이다. Opus 4.5의 후속 모델로, 코딩, 에이전트 작업, 장문 컨텍스트 처리에서 개선을 이뤘다. 이 글에서는 공식 발표와 벤치마크를 기반으로 실제 성능을 정리한다.

공식 발표: https://www.anthropic.com/news/claude-opus-4-6

핵심 스펙

항목 Opus 4.5 Opus 4.6
컨텍스트 윈도우 200K 토큰 200K (기본) / 1M (베타)
최대 출력 64K 토큰 128K 토큰
사고 모드 Extended thinking Adaptive thinking
API 모델 ID claude-opus-4-5 claude-opus-4-6
가격 (입력/출력) $5 / $25 per MTok $5 / $25 per MTok

가격이 동일하면서 성능이 올라간 점이 주목할 만하다. 다만 1M 컨텍스트 윈도우는 200K 이상 구간에서 입력 $10/MTok, 출력 $37.50/MTok으로 프리미엄 가격이 적용된다.

벤치마크 성능

코딩/에이전트

벤치마크 Opus 4.6 Opus 4.5 GPT-5.2 Gemini 3 Pro
Terminal-Bench 2.0 65.4% 59.8% 64.7% 56.2%
SWE-bench Verified 80.8% 80.9% 80.0% 76.2%
OSWorld 72.7% 66.3% -- --
BrowseComp 84.0% 67.8% 77.9% 59.2%

Terminal-Bench 2.0에서 업계 최고 점수를 기록했고, BrowseComp(정보 검색 능력)에서도 1위다. 단, SWE-bench Verified에서는 Opus 4.5가 0.1%p 더 높다 (80.9% vs 80.8%). 이건 오차 범위 내의 차이로 보인다.

추론/지식

벤치마크 Opus 4.6 Opus 4.5 GPT-5.2 Gemini 3 Pro
GDPval-AA (Elo) 1606 1416 1462 1195
HLE (도구 사용) 53.1% 43.4% 50.0% 45.8%
ARC AGI 2 68.8% 37.6% 54.2% 45.1%
GPQA Diamond 91.3% 87.0% 93.2% 91.9%
BigLaw Bench 90.2% -- -- --
MMLU 91.1% 90.8% 89.6% 91.8%

GDPval-AA(경제적으로 가치 있는 지식 작업 평가)에서 GPT-5.2를 144 Elo 포인트 차이로 앞선다. ARC AGI 2에서는 Opus 4.5 대비 거의 2배 가까운 점수(68.8% vs 37.6%)를 보여 추론 능력이 크게 향상됐다.

반면 GPQA Diamond(대학원 수준 과학 문제)에서는 GPT-5.2 Pro(93.2%)와 Gemini 3 Pro(91.9%)보다 약간 뒤처진다.

Adaptive Thinking

Opus 4.6의 주요 변경점 중 하나가 "adaptive thinking"이다. 기존 extended thinking에서는 budget_tokens를 수동 설정했지만, adaptive thinking은 모델이 문제 복잡도에 따라 자동으로 사고 깊이를 조절한다.

4단계 effort 레벨을 제공한다:
- low: 단순 분류, 추출 등에 적합. 사고 과정 생략
- medium: 적당한 추론이 필요한 작업
- high (기본값): 대부분의 프로덕션 워크로드에 권장
- max: 최고 난이도 문제용. Opus 4.6에서 새로 추가. 레이턴시가 높지만 최대 추론 성능

// API 사용 예시
const response = await anthropic.messages.create({
  model: "claude-opus-4-6",
  max_tokens: 16000,
  thinking: { type: "adaptive" },
  // effort: "high", // low | medium | high | max
  messages: [{ role: "user", content: "문제를 분석해주세요..." }]
});

잘하는 것

  • 에이전트 작업: 복잡한 멀티스텝 작업을 자율적으로 수행. 서브에이전트 병렬 실행, 도구 호출 체인 등에서 안정적
  • 코딩: 대규모 코드베이스 탐색, 디버깅, 코드 리뷰에서 업계 최고 수준
  • 긴 컨텍스트 처리: 1M 토큰 베타에서 MRCR v2 벤치마크 256K 기준 93% 정확도
  • 법률 분석: BigLaw Bench 90.2%로 법률 추론에 강함
  • 멀티도메인 분석: 금융, 기술, 법률 문서를 동시에 분석하는 작업

약한 부분

  • 과학 문제 (GPQA): GPT-5.2, Gemini 3 Pro보다 소폭 낮음
  • 비용: 입력 $5/출력 $25 per MTok은 Sonnet($3/$15)이나 Haiku($1/$5)보다 상당히 비쌈
  • 레이턴시: effort가 high/max일 때 응답이 느릴 수 있음. 단순 작업에는 과도한 추론을 할 때가 있어 effort를 medium으로 낮추는 것을 Anthropic이 권장
  • Prefilling 제거: Opus 4.6에서 assistant 메시지 프리필링이 제거됨. JSON 출력 등에 프리필링을 쓰던 개발자는 structured outputs로 마이그레이션 필요

가격 비교

모델 입력 (per MTok) 출력 (per MTok)
Claude Opus 4.6 $5 $25
Claude Sonnet 4.5 $3 $15
Claude Haiku 4.5 $1 $5

배치 처리 시 50% 할인, 프롬프트 캐싱으로 최대 90% 절감 가능.

정리

Opus 4.6은 코딩과 에이전트 작업에서 현재 업계 최고 수준의 모델이다. 특히 장시간 자율 작업과 대규모 코드베이스 작업에 강점이 있다. 단, 비용이 높고 단순 작업에는 Sonnet이나 Haiku가 더 효율적이다. 용도에 맞게 모델을 선택하는 것이 중요하다.

댓글 0

댓글을 작성하면 로그인 페이지로 이동합니다.