챗GPT 성능이 갈수록 떨어지고 있다는 분석이 나왔다. 4.0 업데이트 버전의 수학적 해결 능력이 오히려 버전 3.5보다 못하다는 것이다.
스탠포드와 캘리포니아대학교에서 두 버전의 성능을 종합적으로 분석한 결과 여러 방면에서 성능 불일치가 발견됐다. 이러한 결과는 챗GPT의 품질을 지속적으로 모니터링해야 한다는 점을 강조한다. 연구진은 보고서에서 다음과 같이 언급했다.
“우리 팀의 연구 결과는 동일한 LLM(거대 언어 모델) 서비스의 행동이 비교적 짧은 시간 내에 크게 바뀔 수 있음을 보여준다. 구체적으로는 4.0 버전의 수학적 문제 해결 능력은 소수를 식별할 때 충격적인 수준으로 떨어졌다. 지난 3월 97.6%에 달했던 4.0 버전의 정답률은 6월에 2.4%로 급락했다. 반면, 같은 기간 3.5 버전의 정답률은 7.4%에서 86.8%로 급등하며 상당한 개선을 나타냈다.”
통상 IT 제품은 최신 버전이 이전 것보다 낫다. 그러나 구독형 소프트웨어의 세계에서 이런 식으로 가정하는 것은 지나치게 순진한 생각일 수 있다. 이번 분석 결과는 기술이 발전하려면 감시와 평가를 게을리하지 않고 끊임없이 보정해야 한다는 사실을 시사한다.`
자세한 설명 및 코드 생성 부족
민감한 질문에 대한 답변과 관련해서도 꽤 흥미로운 결과가 도출됐다. 4.0 버전의 경우 3~6월 민감한 질문에 대한 직접적인 답변은 크게 줄었다. 이는 안전 계층이 강화됐음을 나타낸다.
그러나 문제는 답변을 거부할 때 생성되는 설명도 눈에 띄게 줄었다는 점이다. 이로 인해 4.0 버전이 사용자 참여와 명확성을 해칠 정도로 조심성 측면에서 오류를 범하고 있는 것은 아닌지 추측을 불러일으켰다.
가장 문제가 된 부분은 예측 불가능성이다. 4.0 버전의 코드 생성 능력은 직접 실행 가능한 코드를 생성할 때 오히려 줄어드는 것으로 나타났다. 이 같은 불일치는 소프트웨어 생태계에 혼란을 초래할 수 있어 챗GPT 모델에 의존하는 업체에 문제가 될 가능성이 크다.
하지만 모든 결과가 부정적인 건 아니었다. 시각적 추론 능력의 경우 버전 4.0이 3.5보다 미미하게나마 개선된 결과를 보였다. 전반적인 정답률은 상대적으로 낮았지만, 성능에 있어서는 진화한 것으로 나타났다.
비인크립토 웹사이트에 포함된 정보는 선의와 정보 제공의 목적을 위해 게시됩니다. 웹사이트 내 정보를 이용함에 따라 발생하는 책임은 전적으로 이용자에게 있습니다.
아울러, 일부 콘텐츠는 영어판 비인크립토 기사를 AI 번역한 기사입니다.