비용, 질병 대리 기준 삼은 설계 문제
집단별 성능 검증·감시 체계가 필수

‘흑인 환자가 백인 환자보다 질병에 걸릴 확률이 낮다’는 미국 내 제한적 통계를 AI가 그대로 학습해 실제 의료 현장에서 사용된 사례가 뒤늦게 논란이 되고 있다.
2019년 사이언스 논문에 실린 ‘AI 의료사고 사례’에 따르면 미국 대형 의료시스템에서 쓰이던 의료 AI가 같은 질병 위험을 가진 환자라도 흑인에게 더 낮은 위험 점수를 부여한 사실이 확인됐다.
AI의 판단이 객관적이고 중립적일 것이라는 기대와 달리, 사람이 구성한 학습 데이터 속 편향을 그대로 반영하면서 ‘흑인 환자는 관리가 덜 필요하다’는 결론으로 이어졌다.
이 알고리즘은 2012~2014년, 미국 일부 주 거주 시민 데이터를 기반으로 만들어졌다. ‘앞으로 들어갈 치료비’를 위험 산출 기준으로 삼았다.
같은 질병이어도 미국에서는 흑인에게 투입되는 의료비가 상대적으로 적다고 봤다. AI는 이 배경을 정확히 이해하지 못한 채 ‘비용이 적다 → 덜 아프다’는 방식으로 학습한 셈이다. 인종 및 지역별 경제 능력 상황 등은 별개의 문제로 학습해 반영한 결과다.
결과적으로 실제 위험 수준이 같은 흑인 환자가 추가 관리 대상에서 빠지는 왜곡이 발생했다. 편향을 교정하면 흑인 비율은 기존 17.7%에서 46.5%로 증가했다.
미국 CDC는 이후 의료 AI 성능을 검증할 때, 평균 정확도가 아닌 집단별 차이를 함께 확인하는 절차를 도입하는 방향으로 논의를 확대하고 있다.
같은 모델이라고 해도 백인·흑인·아시아계·히스패닉에게 동일하게 작동하는지를 따로 검증해야 한다는 기준이 힘을 얻고 있다. 학습 데이터에 포함된 인구 구성과 ‘대표성’을 공개하도록 요구하는 연구자·학회도 늘었다.
2025년 최근 논문들에서는 소수 인종 그룹에서 더 나은 예측 성능을 확보하려는 알고리즘 개선 시도가 보고되고 있다. 그러나 일부 집단에서는 오히려 정확도가 떨어지는 현상도 함께 나타났다. 특정 인종에서 편향을 줄이는 것이 다른 인종·다른 집단에서 역효과를 낳을 수 있다는 지점이 확인되면서 의료 AI 공정성 문제는 기술적 미세조정만으로 해결되기 어렵다는 진단이 이어지고 있다.
라자프리야 마니캄 미국 하이마운틴 헬스케어 메디컬 그룹 폐의학과 교수는 “의료 AI를 진료에 활용하려면 정확도만으로 충분하지 않다”며 “한국인·아시아인 데이터 비중, 백인 중심 학습 여부, 집단별 성능 격차 공개, 외부 검증, 사후 모니터링이 함께 확인돼야 한다”고 했다.
이어 “어떤 기준으로 학습했는지, 누구에게 같은 정확도로 작동하는지, 편향 검증이 이뤄졌는지 확인되지 않은 상태에서 AI 결론을 곧바로 의사결정에 반영하는 것은 위험하다”고 강조했다.
여성경제신문 김현우 기자 hyunoo9372@seoulmedia.co.kr

