챗GPT 성능이 갈수록 떨어진다? 수학 문제 정답률 97% → 2% 급락

챗GPT 성능이 갈수록 떨어지고 있다는 분석이 나왔다. 4.0 업데이트 버전의 수학적 해결 능력이 오히려 버전 3.5보다 못하다는 것이다.

스탠포드와 캘리포니아대학교에서 두 버전의 성능을 종합적으로 분석한 결과 여러 방면에서 성능 불일치가 발견됐다. 이러한 결과는 챗GPT의 품질을 지속적으로 모니터링해야 한다는 점을 강조한다. 연구진은 보고서에서 다음과 같이 언급했다.

“우리 팀의 연구 결과는 동일한 LLM(거대 언어 모델) 서비스의 행동이 비교적 짧은 시간 내에 크게 바뀔 수 있음을 보여준다. 구체적으로는 4.0 버전의 수학적 문제 해결 능력은 소수를 식별할 때 충격적인 수준으로 떨어졌다. 지난 3월 97.6%에 달했던 4.0 버전의 정답률은 6월에 2.4%로 급락했다. 반면, 같은 기간 3.5 버전의 정답률은 7.4%에서 86.8%로 급등하며 상당한 개선을 나타냈다.”

ChatGPT-4 vs ChatGPT-3.5 Performance — 챗GPT 4.0 vs. 3.5 성능 비교. 출처: arXiv

통상 IT 제품은 최신 버전이 이전 것보다 낫다. 그러나 구독형 소프트웨어의 세계에서 이런 식으로 가정하는 것은 지나치게 순진한 생각일 수 있다. 이번 분석 결과는 기술이 발전하려면 감시와 평가를 게을리하지 않고 끊임없이 보정해야 한다는 사실을 시사한다.`

자세한 설명 및 코드 생성 부족

민감한 질문에 대한 답변과 관련해서도 꽤 흥미로운 결과가 도출됐다. 4.0 버전의 경우 3~6월 민감한 질문에 대한 직접적인 답변은 크게 줄었다. 이는 안전 계층이 강화됐음을 나타낸다.

ChatGPT-4 vs ChatGPT-3.5 Verbosity — 챗GPT 4.0 vs. 3.5 변수 비교. 출처: arXiv

그러나 문제는 답변을 거부할 때 생성되는 설명도 눈에 띄게 줄었다는 점이다. 이로 인해 4.0 버전이 사용자 참여와 명확성을 해칠 정도로 조심성 측면에서 오류를 범하고 있는 것은 아닌지 추측을 불러일으켰다.

가장 문제가 된 부분은 예측 불가능성이다. 4.0 버전의 코드 생성 능력은 직접 실행 가능한 코드를 생성할 때 오히려 줄어드는 것으로 나타났다. 이 같은 불일치는 소프트웨어 생태계에 혼란을 초래할 수 있어 챗GPT 모델에 의존하는 업체에 문제가 될 가능성이 크다.

Companies Worldwide Using ChatGPT — 챗GPT를 이용하는 전 세계 기업 현황. 출처: Statista

하지만 모든 결과가 부정적인 건 아니었다. 시각적 추론 능력의 경우 버전 4.0이 3.5보다 미미하게나마 개선된 결과를 보였다. 전반적인 정답률은 상대적으로 낮았지만, 성능에 있어서는 진화한 것으로 나타났다.

최고의 암호화폐 거래소

dYdX 보기

KuCoin 보기

Phemex 보기

Bybit 보기

Coinrule 보기

최고의 암호화폐 거래소

dYdX 보기

KuCoin 보기

Phemex 보기

Bybit 보기

Coinrule 보기

최고의 암호화폐 거래소

비인크립토 웹사이트에 포함된 정보는 선의와 정보 제공의 목적을 위해 게시됩니다. 웹사이트 내 정보를 이용함에 따라 발생하는 책임은 전적으로 이용자에게 있습니다.
아울러, 일부 콘텐츠는 영어판 비인크립토 기사를 AI 번역한 기사입니다.

스폰서 스폰서

Yun-yeong Choi

필자 소개 전체 읽기

비인크립토에서 한영 기사 번역을 맡고 있습니다. 코인데스크코리아 등 블록체인 매체에서 프리랜스 번역가로 활동했으며 『돈의 패턴』, 『두려움 없는 조직』, 『오늘부터 팀장입니다』 등 약 30권의 책을 번역했습니다. 한국외대 학부에서 이란어를, 대학원에서 한영번역을 전공했습니다. 블록체인이 바꿔 나갈 미래를 꿈꾸며 기대합니다.

필자 소개 전체 읽기

#비트코인 #인공지능