브릿지벤치 글 ‘클로드 오퍼스 4.6 너프’ 주장…비판자 ‘잘못된 과학’

Google에서 저희를 선택해 주세요

작성자

Lockridge Okoth

편집자

Paul Kim

게시일:13일 4월 2026년, 22:13 KST

업데이트일:13일 4월 2026년, 23:30 KST

바이럴 X 게시물, 클로드 오퍼스 4.6 환각 98% 급증 주장
비평가, 테스트 크기 달라 공정 비교 아님 지적
동일 작업 분석…AI 변동 범위 내 변화 미미

#AI 인사이트

#AI기업

브릿지마인드AI(BridgeMind AI)가 앤트로픽(Anthropic)의 클로드 오퍼스 4.6(Claude Opus 4.6)이 환각 벤치마크 재검증 이후 비밀리에 성능이 하향 조정됐다고 주장했습니다. 해당 바이럴 게시글은 이후 잘못된 방법론에 대한 날카로운 비판을 받고 있습니다.

이 주장은 AI 기업들이 비용 절감을 위해 유료 모델의 성능을 조용히 저하시킨다는 논란을 촉발시켰습니다.

후원

브릿지마인드, 환각 발생 98% 급증 주장

브릿지마인드는 브릿지벤치(BridgeBench) 코딩 벤치마크를 운영하는 팀입니다. 이들은 클로드 오퍼스 4.6이 환각 리더보드에서 2위에서 10위로 하락했다고 게시했습니다. 정확도가 83.3%에서 68.3%로 떨어졌다고 보고했습니다.

“클로드 오퍼스 4.6이 너프됐습니다. 브릿지벤치가 이를 증명했습니다. 지난주에 클로드 오퍼스 4.6은 환각 벤치마크에서 83.3%의 정확도로 2위를 차지했습니다. 오늘 클로드 오퍼스 4.6을 재검증한 결과, 정확도는 68.3%로 리더보드 10위로 추락했습니다.” – 브릿지마인드AI(BridgeMind AI) 팀의 주장입니다. 보기

이 게시글은 이를 “추론 수준 저하”의 증거로 내세웠습니다. 하지만 자세히 데이터를 살펴보면 다른 이야기가 드러납니다.

비평가들, “비교 자체가 근본적으로 잘못됐다” 지적

컴퓨터 과학자 폴 칼크래프트(Paul Calcraft)에 따르면, 이 주장에는 “믿기 힘들 정도로 잘못된 과학”이 담겨 있으며, 방법론에 본질적인 문제가 있다고 강조했습니다.

“믿기 힘들 정도로 잘못된 과학입니다. 오늘 오퍼스를 30개의 과제에서 테스트했고, 이전 점수는 단 *6*개의 과제였습니다. 겹치는 6개 과제의 결과는 오늘 85.4%, 이전엔 87.6%였습니다. 이 변화는 대부분 반복이 없는 *단일* 과제에서 나온 한 번의 환각 때문으로, 이는 통계적으로 흔한 변동 범위입니다.” – 폴 칼크래프트(Paul Calcraft)의 지적입니다. 참고

이전의 높은 점수는 단 6개의 벤치마크 과제에서 나온 결과입니다. 이번 재검증에선 벤치마크 과제가 30개로 확대됐습니다.

후원

6개의 중복 과제에서의 성능은 거의 동일했으며, 87.6%에서 85.4%로만 소폭 떨어졌습니다.

Despicable clout chasing. They tested Opus today on 30 tasks, previous Opus 4.6 score was on just *6* tasks. DIFFERENT BENCHMARK

6 tasks in common results: 85.4% score today vs. 87.6% prev. Swing is mostly from a *single* fabrication without repeats – easily statistical noise https://t.co/wmFfAfNmEW pic.twitter.com/opUxoVevpP
— Paul Calcraft (@paul_cal) April 12, 2026

이 소폭 하락은 주로 한 과제에서 발생한 단 한 번의 환각 때문에 나타난 결과입니다. 반복 실험이 없었기 때문에, AI 모델의 일반적인 통계 변동 범위를 충분히 벗어나지 않았습니다.

대형 언어 모델은 결정적이지 않으며, 소규모 샘플에서의 한 번의 부정확한 출력이 전체 결과를 크게 바꿀 수 있습니다.

더 넓은 불만이 내러티브를 강화하다

그럼에도 이 게시글은 사용자들의 심리를 건드렸습니다. 2026년 2월 출시 후 꾸준히 클로드 오퍼스 4.6은 품질 저하에 대한 지속적인 불만에 직면해 왔습니다.

개발자들은 피크 시간대에 답변 길이 축소, 지시 이행력 약화, 그리고 추론 깊이 저하를 보고하고 있습니다.

이 가운데 일부는 의도적인 제품 변경과 관련이 있습니다. 앤트로픽은 모델 스스로 추론 예산을 조절할 수 있는 적응적 사고 조절 기능을 도입했습니다. 이후 기본 노력 수준은 ‘중간’으로 설정되어, 최대 깊이보다 효율성을 우선시하게 됐습니다.

New on the API: we're giving developers better control over model effort and more flexibility for long-running agents.

Adaptive thinking lets Claude calibrate its reasoning depth to each task, and context compaction keeps long-running tasks from hitting limits.
— Claude (@claudeai) February 5, 2026