AI: 인종차별 논란 잠재울 수 있는 의료용 인공지능 기술

사진 출처, Getty Images
"10점 만점 기준으로 얼마나 아프세요?"라는 의사의 질문 받아본 적 있을 것이다.
하지만 통증의 정도는 매우 주관적이라 의사들은 환자가 정확히 얼마나 아픈지 짚어내기 어렵다. 나한텐 5점인 통증의 크기가 누군가에겐 7점이 될 수도 있고, 내가 생각하는 10점은 어떤 이에겐 3점일 수도 있다.
이런 차이점에 관한 연구 보고서가 최근 네이처 메디신지에 발간됐다. 연구진은 무릎 골관절염 환자가 겪는 통증을 예측하기 위해 인공지능 기술로 엑스레이 사진을 분석했다. 환자 4172명의 엑스레이 사진 3만6369개를 대상으로 했다.
이런 컴퓨터 분석을 통해 방사선 전문의들이 놓칠 수 있던 것을 잡아낼 수 있게 됐다. 버클리 대학의 조교수 이자 이번 보고서의 공동 저자인 지아드 오버마이어 박사는 "의사가 엑스레이를 보고 무엇을 말할지를 예측하기 위해 알고리즘을 설계하진 않았다"라고 연구 목적을 설명했다. 그는 "환자가 자신의 무릎 통증에 대해 어떤 말을 할지를 예측하기 위해 알고리즘을 설계했다."라고 덧붙였다.
오버마이어 박사에 따르면 알고리즘은 환자의 고통을 더 잘 설명해 냈는데 이점이 중요하다. 왜냐면 의사가 짐작하는 환자가 느끼는 고통의 정도는 인종 차별과도 연계됐기 때문이다.

사진 출처, Nature Medicine
인종별로 통증 호소 정도 차이 있어
연구진은 미국에선 수년간 백인과 흑인 환자 사이의 불평등이 존재한다고 강조했다.의사들은 어떤 특정 집단에 대해선 이들의 통증은 덜 심각하게 받아들이는 경향을 보인다. 예를 들어 흑인 환자의 통증 수준은 과소평가 되는데 이는 치료에 악영향을 미칠 수 있다. 인종차별이 흑인 건강에 미치는 영향을 방지하는 단체인 BLKHLTH의 공동 설립자인 파울라 휠러는 "흑인 환자들이 의사를 찾기까지도 쉬운 일은 아니라고 생각한다"고 운을 띄웠다.
사정이 이러니 "이들의 고통이 제대로 전달되지 않는다는 건 환자에 대한 예의가 아니고 치료를 제대로 하지 못한다는 얘기다. 아시다시피 이런 점이 문제를 더 복잡하게 만든다"고 휠러가 말을 이어갔다.
이번 연구는 "흑인 환자들이 왜 더 심한 통증을 가졌는지", 그 '미스터리'를 탐구하는 것이 목적이다. 연구진은 방사선과 의사들이 보기에 통증 정도가 비슷한 관절염 환자를 검사해보니 흑인이 백인보다 더 심한 통증을 호소한다는 걸 밝혀냈다. 즉 알고리즘이 비슷해 보이는 사례가 생각보다 덜 비슷하다는 것을 확인한 셈이다. 이는 일반적으로 사용되는 방사선 평가 시스템으로 봤을 땐 간과할 수 있는 증상을 인공지능이 추가로 발견면서다.알고리즘과 환자 본인의 진단으론 통증이 심한 거로 인식되지만, 전통적인 방식으로는 통증이 낫은 거로 집계되는 집단이 흑인들이었다. 즉 전통적인 진단 방식은 흑인 환자에겐 적합지 않을 수 있다는 거다.

사진 출처, Nature Medicine
오버마이어 박사는 "알고리즘이 모든 이의 통증을 더 잘 설명 한다는 것을 발견했고 또한 모든 환자의 무릎 통증도 더 잘 찾아냈는데 이점은 특히 흑인 환자에게 큰 도움이 됐다"고 설명했다. 이런 발견은 특히 사회 경제적 지위가 낮고 저학력인 환자들과 영어를 모국어로 사용하지 않는 사람들에게도 유용하다.
하지만 연구진은 이번 연구에 중요한 한계점도 있다고 인정했다. '블랙박스'처럼 작동하는 딥 러닝의 특성상 엑스레이 사진에 나타난 병의 어떤 특징을 AI가 집어냈는지는 알 수 없다. 따라서 전에는 몰랐으나 인공지능이 감지한 통증을 앓는 환자들이 수술을 시키는 게 효과적인지 또한 미지수다.
차별적이라 비판 받아온 인공지능 기술
그러나 인공지능이 차별적이라는 비난을 자주 받아왔던 점을 고려해 보면 이번 연구는 흥미롭다. 차별 논란은 알고리즘에 들어가는 데이터 세트가 우발적인 편향성을 띤 이유로 생긴다. 미국 일리노이 어바나-샴페인 대학교의 컴퓨터 과학과의 지멍 선 교수는 " 소수 인종 인구에 관해 연구할 땐 적은 표본을 바탕으로 알고리즘이 훈련한다"고 말했다.
그 결과 나온 알고리즘을 소수 인구 표본에 적용해 보면 다수 인구 표본 때 보다 정확도가 떨어진다는 것이 선 교수의 설명. 그러니까 인공지능 시스템은 백인의 습관과 특징에서 패턴을 발견하는 법을 배웠기 때문에 다른 인종에게 적용하면 제대로 작동하지 않는 비판을 받는 경우가 많다는 것이다. 선 교수는 "의료용 인공지능은 의사를 대체할 정도는 아니지만 지루한 업무라던가 환자 치료와 직접 연관이 없는 보조 업무를 대신하는 의미가 더 크다"라고 분석했다.
모리 대학의 정형외과 조교수인 샌드라 홉슨 박사는 이번 연구가 다양한 데이터 풀을 사용했다는 점에서 큰 잠재력이 있다고 봤다. "과거엔 조사 대상에 여성이나 다른 배경을 가진 환자들을 포함하지 않았"지만 " 인공 지능은 국적과 배경을 막론한 모든 환자의 데이터를 통합해 분석하는데 유용할 것"이라는 기대감을 내비쳤다. 하지만 그는 이는 아직 시작에 불과하다고 말했다.
파울라 윌러는 의료 차별의 역사가 시스템을 비효율적으로 만들었고 흑인과 의료인 사이에 수년간의 불신을 초래했다고 생각한다. 인공지능에 편견이 있다고 믿는 사람들은 아직도 이 기술에 대해 회의적일 것이다. 그러나 이번 연구 관계자들은 이런 기술이 의료 치료의 불평등을 줄일 수 있을 것에 기대를 걸고 있다.












