의료 AI 이미지 분석 MIT 연구
인공지능(AI)은 의료 분야에 혁명적인 변화를 가져오고 있습니다. 특히 X-ray, MRI, CT 스캔과 같은 의료 이미지 분석에서 AI의 역할은 날로 증대되고 있습니다. AI는 진단의 정확성과 효율성을 크게 향상시켰지만, 동시에 새로운 윤리적 문제와 도전 과제를 제기하고 있습니다. 그 중 가장 중요한 문제 중 하나가 바로 AI 모델의 편향성입니다.
최근 연구에 따르면, 의료 AI 모델은 특정 인구 집단에서 일관되게 낮은 성능을 보이는 경향이 있으며, 특히 여성과 유색인종에서 이러한 문제가 두드러집니다. 이는 의료 AI가 모든 환자에게 공정하게 작동하지 않을 수 있다는 것을 의미하며, 결과적으로 일부 환자들이 부적절한 의료 서비스를 받을 위험이 있음을 시사합니다.
이 글에서는 의료 AI의 편향 문제의 원인과 그 영향, 그리고 이를 해결하기 위한 최신 연구와 접근법에 대해 살펴보겠습니다. 또한, 의료기관이 AI를 도입할 때 고려해야 할 사항들을 제시하며, 궁극적으로 모든 환자에게 공정하고 정확한 진단을 제공할 수 있는 의료 AI의 미래를 알아보겠습니다.
의료 AI 이미지 분석의 현황
의료 AI, 특히 이미지 분석 분야에서의 AI 활용은 급속도로 확대되고 있습니다. 미국 식품의약국(FDA)에 따르면, 2024년 5월 기준으로 882개의 AI 기반 의료기기가 승인을 받았으며, 그 중 671개가 방사선과에서 사용되도록 설계되었습니다. 이는 의료 이미지 분석에서 AI의 중요성이 얼마나 커졌는지를 잘 보여줍니다.
AI는 X-ray, CT, MRI 등의 의료 영상을 분석하여 다양한 질병을 감지하고 진단하는 데 활용되고 있습니다. 예를 들어, 흉부 X-ray에서 폐렴, 폐암, 심장 비대 등을 탐지하거나, 유방 X-ray에서 유방암을 조기에 발견하는 데 AI가 사용되고 있습니다. 이러한 AI 시스템은 많은 경우 인간 전문가와 비슷하거나 더 나은 성능을 보여주고 있습니다.
편향의 실체: MIT 연구팀의 발견
그러나 이러한 AI 시스템의 성능 이면에는 중요한 문제가 숨어 있습니다. MIT의 연구팀은 최근 흉부 X-ray를 분석하는 AI 모델이 환자의 인종을 놀라울 정도로 정확하게 예측할 수 있다는 사실을 발견했습니다. 더 놀라운 것은, 이러한 능력이 숙련된 방사선과 의사들도 할 수 없는 것이라는 점입니다.
연구팀은 이어서 인구통계학적 예측을 가장 정확하게 하는 모델들이 오히려 다른 인종이나 성별의 환자들을 진단할 때 가장 큰 ‘공정성 격차’를 보인다는 사실을 밝혀냈습니다. 이는 AI 모델이 진단 과정에서 인종, 성별, 나이와 같은 인구통계학적 정보를 일종의 ‘단축키’로 사용하고 있음을 시사합니다.

연구에 따르면 의료 이미지를 분석하는 AI 모델이 편향될 수 있는 이유가 밝혀졌습니다.
인공지능(AI) 모델은 X-ray와 같은 이미지를 분석할 때 특히 의료 진단에서 중요한 역할을 합니다. 그러나 연구에 따르면 이러한 모델들은 모든 인구 집단에서 동일하게 잘 작동하지 않는다는 것이 밝혀졌습니다. 특히 여성과 유색 인종에서 성능이 떨어지는 경향이 있습니다.
2022년에 MIT 연구원들은 AI 모델이 숙련된 방사선과 의사들도 할 수 없는, 흉부 X-ray에서 환자의 인종을 정확하게 예측할 수 있다는 놀라운 능력을 가지고 있다는 사실을 보고했습니다. 최근 이 연구팀은 가장 정확하게 인구 통계학적 예측을 하는 모델들이 다른 인종이나 성별의 사람들을 정확하게 진단하는 능력에서 가장 큰 “공정성 격차”를 보여준다는 것을 발견했습니다. 이는 이러한 모델들이 진단 평가를 할 때 “인구 통계학적 단축키”를 사용하여 여성, 흑인 및 기타 그룹에서 잘못된 결과를 초래할 수 있다는 것을 시사합니다.
MIT 전기공학 및 컴퓨터과학 부교수이자 MIT 의료공학 및 과학연구소의 일원인 마르지예 가셈미(Marzyeh Ghassemi)는 “고성능 기계 학습 모델이 인종, 성별, 나이와 같은 인구 통계학적 특성을 잘 예측한다는 것은 잘 알려져 있습니다. 이 논문은 그 능력을 다시 입증하고, 그 능력이 다른 그룹 간 성능 차이와 연결된다는 것을 보여줍니다.“라고 말했습니다.
연구진은 또한 모델의 공정성을 개선할 수 있는 방법을 발견했습니다. 그러나 “디바이어싱(debiasing)” 접근 방식은 모델이 훈련된 것과 같은 유형의 환자에게 테스트될 때 가장 잘 작동했습니다. 다른 병원의 환자에게 적용했을 때, 공정성 격차가 다시 나타났습니다.
MIT 대학원생 하오란 장(Haoran Zhang)은 “첫 번째로, 외부 모델을 자체 데이터로 철저히 평가해야 합니다. 모델 개발자가 훈련 데이터에 대해 제공하는 공정성 보장이 귀하의 인구 집단에 적용되지 않을 수 있기 때문입니다. 두 번째로, 충분한 데이터가 있는 경우, 자체 데이터로 모델을 훈련시켜야 합니다.“라고 말했습니다.
MIT 대학원생 유제 양(Yuzhe Yang)도 이 논문의 주요 저자 중 한 명이며, 에모리대학교 의과대학의 방사선 및 영상 과학 부교수 주디 기초야(Judy Gichoya)와 MIT의 전기공학 및 컴퓨터과학 교수 디나 카타비(Dina Katabi)도 이 논문의 저자입니다.
편향 제거
2024년 5월 기준, FDA는 882개의 AI 기반 의료 기기를 승인했으며, 그 중 671개가 방사선과에서 사용되도록 설계되었습니다. 2022년 이후, 가셈미와 그녀의 동료들은 이러한 진단 모델이 인종을 정확하게 예측할 수 있다는 것을 보여줬고, 다른 연구자들은 이러한 모델이 성별과 나이도 매우 잘 예측할 수 있다는 것을 보여주었습니다.
가셈미는 “많은 인기 있는 기계 학습 모델들이 인구 통계학적 예측 능력이 뛰어납니다. 방사선과 의사들은 흉부 X-ray에서 자가 보고된 인종을 감지할 수 없습니다.“라고 말했습니다. “이 모델들은 질병 예측에 능숙하지만, 훈련 중에 바람직하지 않은 다른 것들을 예측하는 방법을 배우고 있습니다.”
이 연구에서 연구진은 특히 모델이 왜 특정 그룹에서는 잘 작동하지 않는지 탐구하고자 했습니다. 그들은 모델이 예측을 할 때 인구 통계학적 단축키를 사용하여 일부 그룹에서 덜 정확한 결과를 초래하는지 알아보고자 했습니다. 이러한 단축키는 AI 모델이 이미지의 다른 특징 대신 인구 통계학적 속성을 사용하여 의료 상태의 존재 여부를 판단할 때 발생할 수 있습니다.
연구진은 보스턴의 베스 이스라엘 디코너스 의료 센터에서 공개된 흉부 X-ray 데이터를 사용하여 환자에게 세 가지 다른 의료 상태가 있는지 예측하도록 모델을 훈련시켰습니다: 폐에 액체가 고여 있는지, 폐가 허탈된 상태인지, 또는 심장이 비대해져 있는지. 그런 다음 훈련 데이터에서 제외된 X-ray로 모델을 테스트했습니다.
전반적으로 모델은 잘 작동했지만, 대부분의 모델에서 성별과 인종에 따라 정확도 차이가 발생하는 “공정성 격차”가 나타났습니다. 또한 모델은 X-ray 대상자의 성별, 인종, 나이를 예측할 수 있었습니다. 그리고 각 모델의 인구 통계학적 예측 정확도와 공정성 격차의 크기 사이에 중요한 상관관계가 있었습니다. 이는 모델이 질병 예측을 할 때 인구 통계학적 범주화를 단축키로 사용할 수 있음을 시사합니다.
연구진은 두 가지 전략을 사용하여 공정성 격차를 줄이려고 시도했습니다. 한 세트의 모델에서는 “하위 그룹 강건성(subgroup robustness)“을 최적화하도록 훈련하여, 성능이 가장 낮은 하위 그룹에서 더 나은 성능을 보이면 보상을 받고, 한 그룹의 오류율이 다른 그룹보다 높으면 페널티를 받도록 했습니다.
또 다른 세트의 모델에서는 “그룹 적대적(group adversarial)” 접근 방식을 사용하여 이미지에서 인구 통계학적 정보를 완전히 제거하도록 강제했습니다. 연구진은 두 가지 전략 모두 상당히 잘 작동한다는 것을 발견했습니다.
가셈미는 “분포 내 데이터에 대해서는, 기존의 최첨단 방법을 사용하여 전체 성능을 크게 희생하지 않고 공정성 격차를 줄일 수 있습니다.“라고 말했습니다. “하위 그룹 강건성 방법은 모델이 특정 그룹을 잘못 예측하는 것에 민감하게 만들고, 그룹 적대적 방법은 그룹 정보를 완전히 제거하려고 합니다.”
항상 더 공정하지는 않음
그러나 이러한 접근 방식은 모델이 훈련된 것과 같은 유형의 환자 데이터에서 테스트될 때만 작동했습니다. 예를 들어, 베스 이스라엘 디코너스 의료 센터 데이터셋의 환자들만 포함했습니다.
연구진이 BIDMC 데이터를 사용하여 “디바이어싱”된 모델을 다섯 개의 다른 병원 데이터셋의 환자들을 분석하는 데 테스트했을 때, 모델의 전반적인 정확도는 높게 유지되었지만, 일부 모델은 큰 공정성 격차를 보였습니다.
장(Zhang)은 “한 세트의 환자에서 모델을 디바이어스할 경우, 새로운 병원이나 다른 위치의 새로운 환자 집단으로 이동할 때 그 공정성이 반드시 유지되는 것은 아닙니다.“라고 말했습니다.
이는 많은 경우에 병원들이 다른 병원에서 개발된 모델을 사용하는 경우 문제가 될 수 있습니다. 특히 상용 모델을 구매할 때는 더욱 그렇습니다.
가셈미는 “유사한 데이터에서 최적의 성능을 보이는 최첨단 모델조차도 새로운 환경에서는 전체 성능과 하위 그룹 성능 간의 최적의 균형을 이루지 못합니다.“라고 말했습니다. “안타깝게도 이것이 실제로 모델이 배포되는 방식입니다. 대부분의 모델은 하나의 병원 또는 하나의 출처에서 데이터를 사용하여 훈련되고 검증된 후, 널리 배포됩니다.”
연구진은 그룹 적대적 접근 방식을 사용하여 디바이어스된 모델이 하위 그룹 강건성 방법을 사용한 모델보다 새로운 환자 그룹에 대해 약간 더 공정하다는 것을 발견했습니다. 그들은 이제 새로운 데이터셋에서 더 공정한 예측을 할 수 있는 모델을 만들기 위해 추가적인 방법을 개발하고 테스트할 계획입니다.
이 연구 결과는 이러한 유형의 AI 모델을 사용하는 병원들이 모델을 사용하기 전에 자체 환자 집단에 대해 평가하여 특정 그룹에 부정확한 결과를 제공하지 않도록 해야 함을 시사합니다.
DOI: 10.1038/s41591-024-03113-4

인구통계학적 단축키: AI 편향의 원인
AI 모델이 이러한 ‘인구통계학적 단축키’를 사용하는 이유는 무엇일까요? 연구진들은 이것이 AI의 학습 과정과 관련이 있다고 설명합니다. AI 모델은 훈련 데이터에서 패턴을 찾아 학습하는데, 이 과정에서 의도치 않게 인구통계학적 특성과 질병 간의 상관관계를 학습하게 될 수 있습니다.
예를 들어, 특정 인종이나 성별에서 어떤 질병의 발생률이 높다면, AI는 이를 하나의 패턴으로 인식하고 진단 과정에서 활용할 수 있습니다. 이는 전체적인 예측 정확도를 높일 수 있지만, 동시에 특정 그룹에 대한 편향된 판단을 초래할 수 있습니다.
편향 해소를 위한 접근법
이러한 편향 문제를 해결하기 위해 연구자들은 다양한 접근법을 시도하고 있습니다. MIT 연구팀이 시도한 두 가지 주요 접근법은 다음과 같습니다:
하위 그룹 강건성 최적화
이 방법은 AI 모델이 모든 하위 그룹(예: 인종, 성별별 그룹)에서 균등한 성능을 보이도록 훈련시키는 것입니다. 모델은 성능이 가장 낮은 하위 그룹에서 더 나은 성능을 보이면 보상을 받고, 특정 그룹의 오류율이 다른 그룹보다 높으면 페널티를 받습니다.
그룹 적대적 접근법
이 접근법은 AI 모델이 의료 이미지에서 인구통계학적 정보를 완전히 제거하도록 강제하는 방법입니다. 이를 통해 모델은 오직 의료적으로 관련된 특징만을 바탕으로 진단을 내리게 됩니다.
연구 결과, 두 방법 모두 AI 모델의 공정성을 개선하는 데 효과가 있었습니다. 특히 그룹 적대적 접근법이 새로운 환자 그룹에 대해서도 비교적 더 공정한 예측을 할 수 있었습니다.
편향 해소의 한계와 새로운 과제
그러나 이러한 접근법들에도 한계가 있습니다. 가장 큰 문제는 이 방법들이 모델이 훈련된 것과 동일한 유형의 환자 데이터에서만 효과적으로 작동한다는 점입니다. 다른 병원이나 다른 지역의 환자 데이터에 적용했을 때는 공정성 격차가 다시 나타나는 경향이 있었습니다.
이는 의료 AI의 일반화 가능성에 대한 중요한 질문을 제기합니다. 특정 데이터셋에서 훈련되고 최적화된 AI 모델이 다양한 의료 환경에서 동일하게 공정하고 정확한 성능을 보일 수 있을까요? 이는 앞으로 해결해야 할 중요한 과제입니다.

의료기관의 AI 도입 시 고려사항
이러한 연구 결과는 의료기관이 AI 시스템을 도입할 때 주의 깊게 고려해야 할 사항들을 제시합니다:
- 자체 평가: 상용 AI 모델을 구매하더라도, 해당 모델을 자체 환자 데이터로 철저히 평가해야 합니다.
- 지속적인 모니터링: AI 시스템의 성능을 지속적으로 모니터링하고, 특정 그룹에서의 성능 저하가 없는지 확인해야 합니다.
- 다양성 확보: AI 훈련 데이터에 다양한 인구 집단이 균형 있게 포함되도록 해야 합니다.
- 전문가 검증: AI의 진단 결과를 항상 인간 전문가가 검증하는 프로세스를 마련해야 합니다.
- 윤리적 고려: AI 시스템 도입 시 공정성과 윤리성을 핵심 고려사항으로 삼아야 합니다.
- 결론: 공정하고 정확한 의료 AI를 향한 노력
의료 AI는 분명 혁신적인 잠재력을 가지고 있습니다. 그러나 이 기술이 모든 환자에게 공정하고 정확한 진단을 제공하기 위해서는 아직 가야 할 길이 멉니다. AI의 편향 문제는 단순히 기술적인 문제가 아닌, 사회적, 윤리적 차원의 문제이기도 합니다.
앞으로는 더욱 다양하고 포괄적인 데이터셋을 구축하고, AI 모델의 의사결정 과정을 더 투명하게 만들며, 지속적인 모니터링과 개선을 통해 AI의 공정성을 높이는 노력이 필요할 것입니다. 또한, AI 윤리와 의료 AI의 규제에 대한 사회적 논의도 활발히 이루어져야 합니다.
궁극적으로, 의료 AI는 모든 환자에게 평등한 기회를 제공하고, 건강 불평등을 해소하는 도구가 되어야 합니다. 이를 위해 연구자, 의료진, 정책 입안자, 그리고 기술 기업들의 협력이 필수적입니다. 공정하고 정확한 의료 AI를 향한 우리의 노력은 계속되어야 하며, 이는 더 나은 의료 서비스와 건강한 사회로 나아가는 중요한 걸음이 될 것으로 생각됩니다.