브릿지벤치 글 ‘클로드 오퍼스 4.6 너프’ 주장…비판자 ‘잘못된 과학’

  • 바이럴 X 게시물, 클로드 오퍼스 4.6 환각 98% 급증 주장
  • 비평가, 테스트 크기 달라 공정 비교 아님 지적
  • 동일 작업 분석…AI 변동 범위 내 변화 미미
Promo

브릿지마인드AI(BridgeMind AI)가 앤트로픽(Anthropic)의 클로드 오퍼스 4.6(Claude Opus 4.6)이 환각 벤치마크 재검증 이후 비밀리에 성능이 하향 조정됐다고 주장했습니다. 해당 바이럴 게시글은 이후 잘못된 방법론에 대한 날카로운 비판을 받고 있습니다.

이 주장은 AI 기업들이 비용 절감을 위해 유료 모델의 성능을 조용히 저하시킨다는 논란을 촉발시켰습니다.

후원
후원

브릿지마인드, 환각 발생 98% 급증 주장

브릿지마인드는 브릿지벤치(BridgeBench) 코딩 벤치마크를 운영하는 팀입니다. 이들은 클로드 오퍼스 4.6이 환각 리더보드에서 2위에서 10위로 하락했다고 게시했습니다. 정확도가 83.3%에서 68.3%로 떨어졌다고 보고했습니다.

“클로드 오퍼스 4.6이 너프됐습니다. 브릿지벤치가 이를 증명했습니다. 지난주에 클로드 오퍼스 4.6은 환각 벤치마크에서 83.3%의 정확도로 2위를 차지했습니다. 오늘 클로드 오퍼스 4.6을 재검증한 결과, 정확도는 68.3%로 리더보드 10위로 추락했습니다.” – 브릿지마인드AI(BridgeMind AI) 팀의 주장입니다. 보기

이 게시글은 이를 “추론 수준 저하”의 증거로 내세웠습니다. 하지만 자세히 데이터를 살펴보면 다른 이야기가 드러납니다.

비평가들, “비교 자체가 근본적으로 잘못됐다” 지적

컴퓨터 과학자 폴 칼크래프트(Paul Calcraft)에 따르면, 이 주장에는 “믿기 힘들 정도로 잘못된 과학”이 담겨 있으며, 방법론에 본질적인 문제가 있다고 강조했습니다.

“믿기 힘들 정도로 잘못된 과학입니다. 오늘 오퍼스를 30개의 과제에서 테스트했고, 이전 점수는 단 *6*개의 과제였습니다. 겹치는 6개 과제의 결과는 오늘 85.4%, 이전엔 87.6%였습니다. 이 변화는 대부분 반복이 없는 *단일* 과제에서 나온 한 번의 환각 때문으로, 이는 통계적으로 흔한 변동 범위입니다.” – 폴 칼크래프트(Paul Calcraft)의 지적입니다. 참고

이전의 높은 점수는 단 6개의 벤치마크 과제에서 나온 결과입니다. 이번 재검증에선 벤치마크 과제가 30개로 확대됐습니다.

후원
후원

6개의 중복 과제에서의 성능은 거의 동일했으며, 87.6%에서 85.4%로만 소폭 떨어졌습니다.

이 소폭 하락은 주로 한 과제에서 발생한 단 한 번의 환각 때문에 나타난 결과입니다. 반복 실험이 없었기 때문에, AI 모델의 일반적인 통계 변동 범위를 충분히 벗어나지 않았습니다.

대형 언어 모델은 결정적이지 않으며, 소규모 샘플에서의 한 번의 부정확한 출력이 전체 결과를 크게 바꿀 수 있습니다.

더 넓은 불만이 내러티브를 강화하다

그럼에도 이 게시글은 사용자들의 심리를 건드렸습니다. 2026년 2월 출시 후 꾸준히 클로드 오퍼스 4.6은 품질 저하에 대한 지속적인 불만에 직면해 왔습니다.

개발자들은 피크 시간대에 답변 길이 축소, 지시 이행력 약화, 그리고 추론 깊이 저하를 보고하고 있습니다.

이 가운데 일부는 의도적인 제품 변경과 관련이 있습니다. 앤트로픽은 모델 스스로 추론 예산을 조절할 수 있는 적응적 사고 조절 기능을 도입했습니다. 이후 기본 노력 수준은 ‘중간’으로 설정되어, 최대 깊이보다 효율성을 우선시하게 됐습니다.

독립적 분석에 따르면, 6,800건이 넘는 클로드 코드 세션에서 추론 깊이가 2월 말까지 약 67% 감소한 것으로 나타났습니다.

코드 편집 전 파일 읽기 비율은 6.6에서 2.0으로 하락했습니다. 즉, 코드를 제대로 검토하지 않고도 수정 시도를 했다는 의미입니다.

AI 사용자에게 의미하는 바

이는 AI 업계 내에서 점증하는 긴장을 반영합니다. 기업들은 출시 후 비용과 확장성을 위해 모델을 최적화하지만, 주요 사용자는 최고 수준의 일관된 성능을 기대합니다. 이 우선순위 차이로 인해 신뢰가 약화되고 있습니다.

현재 공개된 증거만 보면, 브릿지벤치 데이터는 의도적인 성능 하락을 입증하지 못합니다. 벤치마크 비교는 비유가 되지 않으며, 중복된 결과는 거의 동일했습니다.

하지만 근본적인 불만이 전혀 근거 없는 것은 아닙니다. 적응형 컴퓨터 제어와 서비스 수준 최적화로 인해 클로드 오퍼스 4.6의 실제 동작이 달라졌습니다. 일관된 결과에 의존하는 개발자들에게 이러한 변화는 매우 중요합니다.

2024년 4월 13일 기준, 앤트로픽은 브릿지벤치 관련 구체적 주장에 대해 공개 입장을 밝히지 않았습니다.

BeInCrypto의 최신 암호화폐 시장 분석을 보려면 여기를 클릭하세요.

부인 성명

비인크립토 웹사이트에 포함된 정보는 선의와 정보 제공의 목적을 위해 게시됩니다. 웹사이트 내 정보를 이용함에 따라 발생하는 책임은 전적으로 이용자에게 있습니다. 아울러, 일부 콘텐츠는 영어판 비인크립토 기사를 AI 번역한 기사입니다.

후원
후원