최근 횡단면 연구에서 연구자들은 신경과 보드형 시험에서 대규모 언어 모델(LLM)의 성능을 조사했습니다.
미국 정신의학 및 신경학 위원회에서 승인한 문제 은행을 활용한 이 연구를 통해 이러한 고급 언어 모델에 대한 인사이트를 얻을 수 있었습니다.
신경과 시험을 지배하는 ChatGPT
이 연구에는 두 가지 버전의 LLM ChatGPT, 즉 버전 3.5와 버전 4가 사용되었습니다. 연구 결과, 새로운 버전이 이전 버전보다 훨씬 뛰어난 성능을 발휘하는 것으로 나타났습니다. 심지어 신경과 전문의 시험에서 인간의 평균 점수를 뛰어넘는 것으로 나타났습니다.
연구 결과에 따르면 LLM 2는 85.0%의 문제에 정답을 맞혔습니다. 반면 인간의 평균 점수는 73.8%입니다.
이 데이터는 대규모 언어 모델을 더욱 정교하게 개선하면 임상 신경학 및 의료 분야에서 중요한 응용 분야를 찾을 수 있음을 시사합니다.
더 읽어보기: 완벽한 직무 설명을 작성하기 위한 9가지 ChatGPT 프롬프트와 팁
낮은 난이도의 시험 문제에서 더 나은 성능을 발휘하는 ChatGPT
그러나 이전 모델인 LLM 1도 66.8%로 인간 평균에 약간 못 미치지만 충분한 성능을 보여주었습니다.
두 모델 모두 정답의 정확성에 관계없이 자신감 있는 언어를 일관되게 사용했으며, 이는 향후 반복 학습에서 개선할 수 있는 잠재적 영역을 나타냅니다.
이 연구에서는 블룸 분류법에 따라 질문을 저차원과 고차원으로 분류했습니다.
두 모델 모두 저차원 질문에서 더 나은 성능을 보였습니다. 그러나 LLM 2는 저차 질문과 고차 질문 모두에서 우수성을 보이며 다재다능함과 인지능력을 보여주었습니다.
더 읽어보기: ChatGPT와 구글 바드: 인공지능 챗봇 비교
비인크립토 웹사이트에 포함된 정보는 선의와 정보 제공의 목적을 위해 게시됩니다. 웹사이트 내 정보를 이용함에 따라 발생하는 책임은 전적으로 이용자에게 있습니다.
아울러, 일부 콘텐츠는 영어판 비인크립토 기사를 AI 번역한 기사입니다.