Trusted

챗GPT, 신경과 전문의 시험에서 정답률 85%달성

1 min
업데이트 Oihyun Kim

요약

  • 횡단면 연구에서 연구원들은 전문가 수준의 신경학 시험에서 대규모 언어 모델(LLM)의 성능을 조사했습니다.
  • 두 ChatGPT 버전 모두 응답에 대한 신뢰도를 보여주며 향후 반복 작업에서 개선될 가능성을 보여줍니다.
  • LLM 2는 저차원적인 질문과 고차원적인 질문 모두에서 탁월한 능력을 발휘하여 인지적 다양성을 보여줍니다. 이러한 결과는 혁신적 잠재력을 암시합니다.
  • promo

최근 횡단면 연구에서 연구자들은 신경과 보드형 시험에서 대규모 언어 모델(LLM)의 성능을 조사했습니다.

미국 정신의학 및 신경학 위원회에서 승인한 문제 은행을 활용한 이 연구를 통해 이러한 고급 언어 모델에 대한 인사이트를 얻을 수 있었습니다.

신경과 시험을 지배하는 ChatGPT

이 연구에는 두 가지 버전의 LLM ChatGPT, 즉 버전 3.5와 버전 4가 사용되었습니다. 연구 결과, 새로운 버전이 이전 버전보다 훨씬 뛰어난 성능을 발휘하는 것으로 나타났습니다. 심지어 신경과 전문의 시험에서 인간의 평균 점수를 뛰어넘는 것으로 나타났습니다.

연구 결과에 따르면 LLM 2는 85.0%의 문제에 정답을 맞혔습니다. 반면 인간의 평균 점수는 73.8%입니다.

이 데이터는 대규모 언어 모델을 더욱 정교하게 개선하면 임상 신경학 및 의료 분야에서 중요한 응용 분야를 찾을 수 있음을 시사합니다.

더 읽어보기: 완벽한 직무 설명을 작성하기 위한 9가지 ChatGPT 프롬프트와 팁

낮은 난이도의 시험 문제에서 더 나은 성능을 발휘하는 ChatGPT

그러나 이전 모델인 LLM 1도 66.8%로 인간 평균에 약간 못 미치지만 충분한 성능을 보여주었습니다.

두 모델 모두 정답의 정확성에 관계없이 자신감 있는 언어를 일관되게 사용했으며, 이는 향후 반복 학습에서 개선할 수 있는 잠재적 영역을 나타냅니다.

이 연구에서는 블룸 분류법에 따라 질문을 저차원과 고차원으로 분류했습니다.

두 모델 모두 저차원 질문에서 더 나은 성능을 보였습니다. 그러나 LLM 2는 저차 질문과 고차 질문 모두에서 우수성을 보이며 다재다능함과 인지능력을 보여주었습니다.

더 읽어보기: ChatGPT와 구글 바드: 인공지능 챗봇 비교

최고의 암호화폐 거래소
Coinrule Coinrule 보기
Margex Margex 보기
BingX BingX 보기
ChainGPT ChainGPT 보기
최고의 암호화폐 거래소
Coinrule Coinrule 보기
Margex Margex 보기
BingX BingX 보기
ChainGPT ChainGPT 보기
최고의 암호화폐 거래소

비인크립토 웹사이트에 포함된 정보는 선의와 정보 제공의 목적을 위해 게시됩니다. 웹사이트 내 정보를 이용함에 따라 발생하는 책임은 전적으로 이용자에게 있습니다.
아울러, 일부 콘텐츠는 영어판 비인크립토 기사를 AI 번역한 기사입니다.

ciaran-lyons-avatar.png
Ciaran Lyons
시아란은 호주 시드니에 거주하는 암호화폐 전문 저널리스트입니다. 그는 특히 CBDC 개발과 실제 시나리오에서 암호화폐의 실용적인 구현에 관한 글을 즐겨 씁니다. 또한 채널 10, 채널 9, SBS TV를 비롯한 호주의 주요 텔레비전 네트워크에 출연했습니다. 암호화폐 업계에 진출하기 전에는 전국 라디오 방송국 트리플 J에서 발표자로 활동했습니다.
READ FULL BIO
스폰서
스폰서