AI 능력의 척도 '의사 면허증 시험', 딥시크·챗GPT 비교해보니...

Poetra.RH / Shutterstock

중국의 고성능 AI(인공지능) 스타트업 '딥시크'가 의사 면허증 시험에서 미국의 대표 AI 챗GPT보다 낮은 성적을 냈다는 연구 결과가 발표됐다.

지난달 말 대중에 공개된 딥시크가 개발 및 운영 비용이 낮은데도 불구하고 수학 등 고급 지적 작업에서 챗 GPT와 비슷하거나 소폭 앞서는 실력을 보인 것으로 알려졌다. 하지만 이번 연구에서는 반대의 결과가 나왔다.

의사 면허증 시험은 특정 환자 사례를 제시하고 진단과 치료 조처에 관한 판단을 묻는다. 이는 복잡한 의학 지식을 논리적으로 활용해야 하는 작업으로 고급 AI 역량을 측정하는 데 종종 활용된다.

5일 AI 업계에 다르면 이탈리아 반비텔리대 연구진은 통제된 환경에서 '딥시크 R1'과 '챗 GPT o1' 모델에게 미국 의사 면허증 시험의 객관식 문제 500개를 풀도록 한 결과를 최근 공개했다.

이 테스트에서 딥시크 R1은 500점 만점에 435점(정답률 87.0%)을 받았고 챗GPT o1은 464점(92.8%)을 받았다. 챗GPT가 딥시크보다 정답률이 약 5%포인트 앞섰다.

이번 테스트는 미국 의사 자격시험의 객관식 문제를 모은 데이터인 '메드QA'(MedQA)에서 소아과 문항만을 뽑아 썼다.

딥시크와 챗GPT는 모두 고급 추론에 특화한 AI로, 논리적 단계에 따라 결론을 정리하는 '생각의 고리'(CoT)라는 방식을 쓰기 때문에 말의 맥락과 상호연관성만 고려하는 언어 AI보다 답변 정확도와 신뢰성이 훨씬 높다.

연구진에 따르면 딥시크와 챗GPT는 서로 잘하는 대목이 달랐다. 실제 두 AI가 모두 오답을 낸 문항은 14개뿐이었지만 챗GPT는 맞추고 딥시크가 틀린 문제는 51개, 챗GPT가 틀리고 딥시크가 정답을 맞춘 문항은 22개였다.

연구진은 "임상 보조 도구로는 챗GPT가 진단 오류를 최소화할 수 있다는 점에서 더 적합한 AI로 판단된다. 특히 신생아 치료 같은 급박한 상황에서는 챗GPT가 훨씬 더 나은 옵션이 될 것"이라고 설명했다.

그러나 연구진은 딥시크의 장점도 뚜렷하다고 설명했다. 정답률이 87%로 챗GPT에 크게 밀리지 않는 데다, 무료 오픈소스(개방형 소프트웨어)로서 경제성이나 적용 유연성이 뛰어나 재원이 부족한 환경 등에서 유용하게 쓸 수 있다는 것이다.

연구진은 "두 AI가 차이가 뚜렷한 만큼 챗GPT와 딥시크를 혼용하는 '통합 접근'을 검토할 만하다. 오류 리스크를 최소화해야 하는 민감한 분야에는 챗GPT를 쓰고, 딥시크가 난도가 상대적으로 낮고 끊임없는 운영이 필요한 분야에 기용하는 아이디어 등이 가능해 보인다"고 말했다.

김주미 키즈맘 기자 mikim@kizmom.com

입력 2025-02-05 11:01:40 수정 2025-02-05 11:02:16

#딥시크 , #챗gpt , #AI

주메뉴

News뉴스

전체뉴스

키즈맘소식