인공지능: AI 음성 비서가 성차별적이라 하는 이유

대부분의 인공지능 스피커는 여성 목소리를 장착했다
사진 설명, 대부분의 인공지능 스피커는 여성 목소리를 장착했다

제임스 본드가 자신의 새 BMW 문을 열자, 컴퓨터에서 여성의 목소리가 나왔다. "환영합니다. 안전 운전을 위해 안전 벨트를 착용하고 운전 지침을 준수해 주세요."

본드의 MI6 동료인 개발자인 Q는 "여성 목소리라면 본드가 말을 더 잘 들을 것 같았다"고 했다. 하지만 본드는 안전 벨트를 매라는 말을 무시한 채 휴대전화를 사용하며 위험천만한 운전을 뽐낸다. 1997년 영화 '007 네버 다이'의 한 장면이다.

여성의 목소리가 효과적일 것이라는 Q와 BMW의 예측은 틀렸다. BMW는 "여성의" 지시를 따르고 싶지 않다는 불만에, 여성 목소리가 장착된 자사 GPS 시스템을 리콜했다.

그렇다면 왜 독일 남성들과 영국의 비밀 요원, 그리고 다른 몇몇은 여성의 목소리로 나오는 지시를 거부하는 것일까? 오늘날 여성의 목소리로 된 네비게이션은 매우 흔하다. 하지만 많은 연구는 디지털 보이스가 그릇된 성적 고정관념을 반영하고, 또 이를 고착화시킨다고 말한다. 스마트 음성 스피커를 예로 들면, 여성 목소리는 정중하게 부탁하는 어조이고, 남성 목소리는 보스처럼 명령한다는 것이다.

유네스코의 2019년 보고서에 따르면, 인공지능(AI) 시스템에는 성적 편견이 만연해 있다. 이 보고서의 제목인 "할 수만 있었다면 얼굴을 붉혔을 것"은 성적 농담을 들었을 때 나온 애플의 음성 비서 '시리'의 반응을 말한다.

이후 AI 음성 시스템에 몇 가지 개선이 이뤄졌지만, 아직도 멀었다는 게 중론이다. 그렇다면 성적 편견은 처음에 어떻게 이런 시스템에 반영된 것일까? 그리고 어떻게 해야 없앨 수 있을까?

디지털 보이스 학대의 역사는 분명하지 않다. 비행기에서 조종사와 대화하고 정보나 경고를 제공하는 시스템 중 가수이자 배우인 조안 엘림스의 목소리를 사용했던 한 시스템은 "섹시한 샐리"라고 불렸다. 이후 나온 시스템은 배우 킴 크로우의 목소리로 만들어졌는데 비공식적으로 "B******* Betty"라는 이름이 있었다. 그리고 영국에서는 "잔소리하는 노라"라는 별칭도 있었다.

런던 지하철의 자동 안내 시스템도 비슷하다. 직원들은 귀에 거슬린다는 이유로 이 시스템을 여성의 이름인 "소냐"라고 부른다고 한다.

언젠가는 AI 음성 비서의 성별이 사라지거나 성별을 알 수 없게 될 것이다

사진 출처, Alamy

사진 설명, 언젠가는 AI 음성 비서의 성별이 사라지거나 성별을 알 수 없게 될 것이다

일부 조종사들은 비행기 음성 시스템 중 남성 목소리가 있는 것을 "(개처럼) 짖는 밥"이라고 부른다. 하지만 이는 성별에 기반한 편견을 담고 있지는 않다.

헤리엇와트 대학의 베레나 라이저는 이러한 상황을 보면 특정 역할에 대해 여성의 목소리가 적합하다는 생각을 개발자들도 반영한 것 같다고 말했다. 하지만 음성 비서는 사용자들의 부적절한 행동을 인식하고 그것에 항의하지 못한다.

그는 "이런 시스템은 성별이 있고, 의인화돼 있다"고 말했다.

최근 애플과 아마존은 다른 선택지를 만들었지만, 과거 시리나 '알렉사' 같은 음성 비서의 초기 설정은 항상 여성 목소리였다. 그리고 컴퓨터로 나오는 합성 목소리에는 여전히 여성의 목소리가 많다. 왜 그럴까? 원인 중 하나는 관련 기업들이 보유한 목소리 데이터에 여성 목소리가 더 많고, 데이터 양이 AI 등 이후 기술 개발에 영향을 미쳤다는 것이다.

역사적으로는 과거 전화 교환 등의 업무를 여성들이 했고, 디지털 메시지 시스템이 나오기 전 많은 메시지 시스템 녹음에 여성의 목소리가 사용됐다. 그러다보니 생활을 보조하는 기술 분야에서 여성의 목소리를 당연하게 생각하게 된 것이다.

연구에 따르면, 이것은 여성과 남성의 "적합한" 일에 대한 우리의 잘못된 기대를 반영하고 있다. 또 실제로 컴퓨터로 만든 목소리가 필요한 시스템에서 남성 목소리든 여성 목소리든 정보 전달 효과의 차이가 거의 없다는 연구도 있다.

과거 음성 비서는 성희롱에 대응하지 못했다. 저널리스트인 리아 페슬러는 2017년 성희롱에 대한 가상 음성 비서의 반응을 테스트했다. "너, 섹시하네"라는 말을 들었을 때, 아마존의 알렉사는 "고맙다"고 답했다. "너는 (성적으로) 난잡해"라는 말에 마이크로소프트의 '코타나'는 "당신이 난잡하다는 30가지 신호"라는 기사 등 웹 검색 결과를 보여줬다.

2020년 브루킹스 연구소 연구원들이 이런 상호작용을 다시 테스트해봤다. 아주 분명한 것은 아니지만, 전보다는 조금 나아졌다. 성적 학대가 있는 표현에 대해 음성 비서들이 전보다 반발하는 경향을 보인 것이다.

런던 지하철 같은 공공 장소에서 나오는 누구의 목소리인지 알 수 없는 음성 대부분은 여성의 목소리다

사진 출처, Alamy

사진 설명, 런던 지하철 같은 공공 장소에서 나오는 누구의 목소리인지 알 수 없는 음성 대부분은 여성의 목소리다

빅 테크 기업들도 사용자가 음성 비서의 목소리를 직접 선택할 수 있도록 하고 있다. 많은 남성 목소리 선택지를 마련하기도 했고, 애플은 더 이상 여성의 목소리를 시리의 기본값으로 설정하지 않는다.

그러나 젠더 연구자들은 단순히 남성 목소리를 제공하고 부적절한 언어에 대한 비서의 반응을 조정하는 것으로는 문제를 해결할 수 없다고 말한다. 가상 비서 시스템에서 특정한 정체성은 배제하고 있을 정도로 다양성과 정교함이 부족하다는 것. 우리 사회에서 어떤 이들은 자신을 남성도 여성도 아닌 사람으로 규정하기도 하고, 어떤 이들은 어떤 성별도 될 수 있다고 스스로를 규정한다. 이와 함께 젠더 정체성은 사회적 영향 및 문화적 영향 등 여러 요인들의 통합적인 결과라는 생각이 확산되고 있다.

그렇다면 디지털 보이스가 이를 반영할 수 있을까? 대답은 "아마도"이다. 아직은 남성 또는 여성으로 나뉘지 않는 성인 인간의 목소리를 합성하는 것이 어렵다. 하지만 노섬브리아 대학의 셀리나 서튼은 "남성 여성 모두에게 동일한 중간 범위의 피치, 기본 주파수가 있다"고 말했다.

실제로 다양한 프로젝트에서 '젠더 중립적' 목소리를 만들고 있다. 컨설팅 회사인 '액센추어'는 실험적으로 젠더 중립적 목소리를 만들었는데, 청취자가 어떤 식으로 인식하느냐에 따라 남성적 또는 여성적으로 들린다.

2019년에는 디자이너와 연구원으로 구성된 한 팀이 Q(제임스 본드와 관련 없음)라는 프로젝트를 진행했다. "성별이 없는 목소리" 프로젝트다. 현재 디자인 랩 '스페이스10'에서 일하는 공동 제작자 라이언 셔먼은 사용자들이 무례하게 굴어도 음성 비서에선 순종적인 여성 목소리만 나온다는 것을 보고 Q 개발을 시작하게 됐다고 했다.

그는 "일반적으로 버튼 하나만 누르면 여성들로부터 도움을 얻을 수 있다는 생각은 여성들이 순종적이라는 고정관념을 심어주고 이를 강화한다"고 말했다.

영화 '007 네버 다이'에서 제임스 본드는 위험한 상황에서도, 안전 벨트를 매라는 디지털 음성 비서의 말을 듣지 않는다

사진 출처, Alamy

사진 설명, 영화 '007 네버 다이'에서 제임스 본드는 위험한 상황에서도, 안전 벨트를 매라는 디지털 음성 비서의 말을 듣지 않는다

Q는 아직 데모 버전만 나온 상태다. 제작팀은 사람들의 목소리를 녹음해 많은 남성과 여성의 목소리가 중첩되는 145Hz에서 175Hz 사이로 음역대를 조정했다.

그리고 결과물을 4500명에게 들려줬다. 어떤 이들은 여성의 목소리로 어떤 이들은 남성의 목소리라고 생각했지만, 많은 이들이 남성도 여성도 아니라고 판단했다고 말했다. 셔튼은 Q는 젠더중립적이라기보다는 "모호한 젠더"가 더 어울린다고 평가했다.

컴퓨터 시스템에서 음성이 다양해지면 여성의 활동 분야에 대한 고정관념을 줄이는 데 도움이 될 것이다. 하지만 셔튼은 디지털 보이스의 성별이 모호해진다 해서, 그것이 성차별적이지 않다는 뜻은 아니라고 했다. 많은 것이 말하는 내용과 음성비서가 수행하는 역할에 달려있기 때문이다.

또한 만화 캐릭터나 동물처럼 들리는 목소리 등을 선택할 수도 있다. 유네스코 보고서의 수석 저자인 마크 웨스트는 작년 이러한 접근을 제안했다.

그는 "인간의 것이 아닌 음성으로도 즐거움을 주고 정보를 전달할 수 있다"며 "이 문제를 해결하는 방법은 음성 비서 및 기타 AI 응용 프로그램에 인간이 아닌 다른 존재를 투사하는 것"이라고 말했다.

AI 음성 비서를 통한 여성혐오가 확산되면서, 메타버스 상에서 실제 인간을 대상으로도 이런 일이 벌어질 수 있다는 우려가 나오고 있다

사진 출처, Alamy

사진 설명, AI 음성 비서를 통한 여성혐오가 확산되면서, 메타버스 상에서 실제 인간을 대상으로도 이런 일이 벌어질 수 있다는 우려가 나오고 있다

하지만 셔튼은 사람들이 의인화된 기술에 매우 익숙해졌다는 점을 지적했다.

그는 "우리는 이러한 장치에서 특정 유형의 음성을 듣는 것에 너무 익숙해져서, 조금만 달라져도 사용자들이 불편하게 느낄 수 있다"고 말했다.

분명 문제는 젠더와 관련된 편향과 편견이 사회 전반에 존재하며, 합성 보이스에도 그것이 반영될 위험이 있다는 것이다. 가치있는 실천이지만 시리의 목소리를 재설계하는 것만으로는 젠더 편향을 없앨 수는 없다. 하룻밤 사이에 사람들의 잘못된 태도를 뒤집거나, AI 업계에서 일하는 여성과 남성의 수를 균등하게 만들 수 없다는 것이다.

아울러 음성 비서는 '어시스턴트'라는 정의처럼, 사용자에게 종속되는 존재다. 그렇다면 디지털 상에서 우리를 보조하는 이들인데, 그들과 어떻게 동등하게 이야기할 수 있을까? 젠더 편견과 성차별적 행동에서 벗어나려면, 이러한 점들도 고민해야 할 것이다.

'페미니스트 인터넷'의 공동 설립자인 샤를로트 웹은 "음성 비서가 사람들의 검색과 쇼핑을 돕기 위해 만들어진 것이라면, 그들과 얼마나 의미있는 관계를 맺게 되겠느냐"고 물었다.

머지 않아 우리는 사람들과 대화하는 더 많은 기술을 만나게 될 것이다. 웹은 음성 비서에 나타난 성적 고정관념과 성차별이 메타버스로도 이어질까 우려된다고 했다. 이미 메타버스에서 다른 사람들을 성희롱한 혐의로 기소된 이들이 있다. 음성 비서가 실수 또는 의도치 않게 그러한 행동을 익숙하게 만드는 것은 아닐까?

과거 디지털 합성 음성을 대하는 우리의 태도는 성적 편견을 심화시키는 결과를 낳았을 수도 있다. 하지만 최근 이러한 문제에 대한 사회적 자각이 생겨났다. AI 기술에 대한 검토와 #MeToo 운동 등 사회적 분위기가 달라진 것이다.

결국 핵심은 인간일 것이다. 인간을 대하는 올바른 태도 및 우리 사회에 존재하는 다양한 정체성을 인정하는 것은 데이터 베이스가 아니라 우리에게서 시작된다. 소프트웨어를 업데이트하거나 자동차를 리콜시킨다고 성별에 기반한 편견을 없앨 수는 없다.

웹은 "나는 기술적 해법에 큰 기대를 걸지 않는다"고 말했다. "저는 그게 인간의 문제라고 생각하기 때문이죠."