🔍 핵심 요약

  • 최근 연구 결과, 거대언어모델(LLM)이 초기 감별 진단 사례 10건 중 8건에서 오답을 내는 심각한 정확도 결여를 보임.
  • 영국 연구진(Boffins)은 환자 대면 임상 추론 과정에 AI를 도입하는 것에 대해 강력한 반대 의견을 피력함.
  • 범용 LLM의 확률적 패턴 매칭과 의료계의 엄격한 인과 추론 사이의 극명한 격차가 확인됨.

상세 분석

거대언어모델(LLM)의 급격한 발전에도 불구하고, 생명과 직결된 의료 진단 분야에서는 아직 그 신뢰성이 현저히 낮다는 연구 결과가 발표되었습니다. 소위 ‘보핀(Boffins)‘이라 불리는 영국의 전문 과학자 집단이 실시한 분석에 따르면, LLM은 초기 감별 진단(Differential Diagnosis) 케이스의 무려 80%에서 정확한 원인을 파악하지 못하고 오진을 내린 것으로 나타났습니다. 이는 AI가 생성하는 유창한 답변이 실제 의학적 사실이나 정밀한 임상 추론에 기반하지 않을 수 있다는 점을 시사하며, ‘로봇 의사(Bot Doctor)‘를 실제 의료 현장에 배치하는 것이 시기상조라는 강력한 경고로 해석됩니다.

연구진은 특히 환자를 직접 대면하여 진단적 판단을 내려야 하는 과정에서 LLM을 신뢰하는 것은 매우 위험하다고 지적했습니다. AI는 방대한 의학 서적 데이터를 학습했음에도 불구하고, 복합적인 증상이 얽힌 실제 환자의 사례에서 논리적 인과관계를 구성하는 데 실패하는 경향이 뚜렷했습니다. 이는 LLM이 가진 확률적 텍스트 생성 방식의 한계로, 결정론적 정확도가 요구되는 의료 분야의 엄격한 요구 사항을 충족하지 못하고 있는 것입니다.

이번 데이터는 AI의 역할이 의료 행정이나 요약 업무에 국한되어야 하며, 최종적인 진단과 처방은 반드시 인간 전문가의 철저한 검증 하에 이루어져야 한다는 ‘Human-in-the-loop’ 원칙의 중요성을 재확인시켜 주었습니다.