2022년 11월, OpenAI의 ChatGPT가 세상에 공개된 이후, 전 세계는 생성형 인공지능(Generative AI)이라는 거대한 파도를 맞이했다. 의료계 또한 예외는 아니다. 초기에는 단순한 흥미 위주의 접근이었으나, 이제는 진료 보조, 의학 논문 작성, 그리고 복잡한 임상 의사결정 지원에 이르기까지 그 활용 범위가 급격히 확대되고 있다.
ChatGPT의 진화
ChatGPT의 의학적 역량을 가장 직관적으로 보여준 사건은 바로 미국 의사면허시험(USMLE) 통과 여부였다. 초기 모델인 GPT-3.5는 USMLE의 3단계 시험에서 통과 기준점(약 60%) 근처에 머물거나 일부 단계에서는 탈락하는 등 불안정한 모습을 보였다. 당시에는 그럴듯한 문장을 구사하지만, 정확한 의학적 사실 관계나 복합적인 추론 능력에서는 한계를 보였기 때문이다. 그러나 불과 몇 개월 뒤 등장한 GPT-4는 놀라운 진보를 이루었다. GPT-4는 별도의 의학적 파이튜닝(Fine-tuning) 없이도 USMLE의 모든 단계에서 상위권 성적으로 합격 기준을 여유 있게 넘어섰다. 특히 단순한 암기 지식이 아닌, 환자의 증상을 종합하여 감별 진단을 내리고 치료 계획을 수립하는 '임상적 추론(Clinical Reasoning)' 능력에서 비약적인 발전을 보였다는 점은 매우 고무적이다. 이는 LLM(거대언어모델)이 단순한 검색 도구를 넘어, 의사의 사고 과정을 보조할 수 있는 파트너로서의 가능성을 입증하였다.
LLM의 의학적 성능 평가
그렇다면 LLM이 임상 현장에서 안전하게 사용될 수 있는지는 어떻게 평가해야 하는가? 여기서 등장하는 것이 바로 '벤치마크 테스트(Bench Test)'다. 일반적인 언어 모델 평가와 달리, 의료용 LLM은 생명을 다루는 분야이기에 더욱 엄격하고 전문적인 기준이 필요하다. 대표적인 벤치마크 데이터셋으로는 미국의 의사면허시험 문제를 기반으로 한 MedQA, 생물의학 문헌에 대한 질의응답을 다루는 PubMedQA, 그리고 임상 증례 보고서를 바탕으로 한 MultiMedQA 등이 있다. 그러나 이러한 평가 방식에는 한계가 뚜렷하다. 지금까지 의료 AI 연구에서는 다지선다형 시험 문제나 퀴즈 형식 질문에 대한 테스트 위주로 성능을 측정했지만, 이러한 방식은 실제 임상 현장의 복잡한 상황과 인간과의 상호작용을 충분히 반영하지 못한다. 정형화된 문제 풀이에서 높은 점수를 얻는 것이 곧 환자 진료 맥락에서의 문제 해결 능력을 의미하지는 않으며, 모델이 단편적인 지식을 암기하거나 패턴을 학습한 결과일 수도 있다. 이러한 문제에 대응하여 2025년 OpenAI는 새로운 의료 AI 평가 지표인 ‘HealthBench’를 발표하였다. HealthBench는 AI 모델이 실제 임상 환경에서 얼마나 유용하고 안전하게 작동하는지를 측정하기 위해 고안된 대규모 벤치마크이다. 국제적인 많은 의사들이 참여해 현실성 높은 5,000개의 의료 상담 시나리오를 구축하고, 각각의 상황에 대해 모범 답변의 기준이 되는 세부 채점 기준을 작성하였다. 이 데이터셋에는 환자와 AI의 다중 턴 대화, 의사-의사 간 협진 토론 등 다양한 맥락의 질문과 요구가 포함되어 있어, 기존 시험 문제를 넘어 실제 진료 과정에서 직면하는 복합적인 상황을 반영한다.
한국형 Medical Bench Test의 필요성
문제는 현재의 주요 벤치마크가 대부분 영미권 데이터와 의료 환경을 기준으로 만들어졌다는 점이다. 미국의 의료 시스템, 보험 체계, 그리고 진료 가이드라인은 한국의 실정과는 다소 차이가 있다. 영어로 학습된 모델이 USMLE를 통과했다고 해서, 한국의 국민건강보험 체계와 심사평가원의 기준, 그리고 한국어의 미묘한 뉘앙스가 섞인 임상 기록을 완벽하게 이해한다고 보장할 수 없다. 따라서 우리에게는 '한국형 Medical Bench Test' 개발이 필요하다. 한국 의사 국가고시 수준의 문제뿐만 아니라, 국내 임상 진료 지침, 판례, 그리고 한국어 의무기록 데이터를 포함한 독자적인 평가 세트가 필요하다. 이는 단순히 언어를 번역하는 차원이 아니라, 한국의 의료 문화와 법적/제도적 특수성을 반영한 'Cultural Alignment'가 이루어진 AI 모델을 검증하기 위한 필수적인 과정이다.
한계와 앞으로 나아갈 방향
물론 현재의 LLM이 완벽한 것은 아니다. 가장 큰 걸림돌은 여전히 존재하는 '환각 현상'이다. 존재하지 않는 논문을 인용하거나, 잘못된 의학 정보를 확신에 찬 어조로 답변하는 문제는 임상 적용에 있어 치명적인 위험요소다. 또한 환자 데이터의 개인정보 보호 문제와 최신 지식 업데이트의 지연(Knowledge Cut-off) 문제도 해결해야 할 과제다. 앞으로의 방향은 이러한 한계를 기술적으로 보완하는 쪽으로 나아갈 것이다. 검색 증강 생성(RAG, Retrieval-Augmented Generation) 기술을 통해 AI가 검증된 교과서나 최신 가이드라인만을 참조하여 답변하게 함으로써 정확도를 높이는 시도가 계속되고 있다. 또한 범용 모델보다는 특정 질환이나 분과에 특화된 'Specialized Medical LLM'의 등장이 가속화될 것이다.
결론적으로, AI는 의사를 대체하는 것이 아니라, 의사가 더 정확하고 효율적인 진료를 할 수 있도록 돕는 강력한 도구다. 이제 우리는 이 도구의 성능을 냉철하게 평가하고, 우리 의료 현실에 맞게 최적화하여 받아들일 준비를 해야 할 때다.