인공지능을 활용한 딥페이크 목소리
우리나라는 4월달에 국회의원 선거가 있다. 또한 전세계적으로 많은 선거가 이뤄지는 한 해 이기도 하다. 그럼 정치와 딥페이크에 대해서 알아보기 전에 딥페이크의 정의를 알아보자.
딥페이크(Deepfake) 기술은 인공 지능과 디지털 조작의 정교한 혼합을 통하여, 실제와 같은 이미지, 오디오 및 비디오를 생성하거나 변경하여 실제로 발생하지 않은 것을 그럴 듯하게 표현 하는것을 말한다. 딥페이크(deepfake)라는 용어는 딥러닝(deep learning)과 페이크(fake)를 합친 말이다.
딥페이크란?
- 딥 러닝: 이는 데이터를 처리하고 의사 결정에 사용할 패턴을 생성하는 데 있어 인간 두뇌의 작동을 모방하는 인공 지능(AI)의 머신 러닝의 하위 집합이다. 딥 러닝은 이미지, 소리와 같은 복잡한 데이터를 인식, 해석, 처리하도록 훈련된 신경망이라는 알고리즘을 사용한다.
- 생성 및 조작: 딥페이크(Deepfake)는 이러한 신경망을 활용하여 디지털 콘텐츠를 생성하거나 수정한다. 이미지와 비디오의 경우 일반적으로 GAN(생성적 적대 네트워크)이라는 기술을 사용하여 기존 이미지와 비디오를 소스 이미지나 비디오에 중첩하는 작업이 포함된다. 오디오의 경우 대상 사람의 음성 샘플로 시스템을 훈련한 다음 그 사람과 비슷한 음성을 합성하는 작업이 포함된다.
- 현실적인 출력: 딥페이크의 특징은 높은 수준의 사실성에 있다. 이러한 AI 생성 이미지, 비디오 또는 오디오 파일은 일반 시청자나 청취자가 실제 콘텐츠와 구별할 수 없는 경우가 대부분이고 오해의 소지가 있거나 잘못된 이야기를 만드는 강력한 도구가 된다.
- 윤리적, 사회적 영향: 딥페이크는 심각한 윤리적, 사회적 문제를 야기한다. 영화나 풍자 콘텐츠와 같이 오락적이고 온화한 목적으로 사용될 수 있으나 허위 정보 유포, 가짜 뉴스 생성, 사기 목적으로 개인을 사칭하거나 평판을 손상시키는 목적으로 오용될 가능성이 높다.
이쯤에서 향후 발생할 수 있는 인공지능을 통한 정치 분야에서의 딥페이크 사례(정보 조작)의 가상 시나리오를 한번 생각해 보자
철수 : 영희야 너 최근 온라인에 공개된 정치인 A 씨 대화 들어봤어?
영희 : 모?
철수 : 그 우리 지역구에 나온 국회의원 후보인데, 글쎄 아는 지인이랑 통화하는게 온라인에 떳는데, 정말 이상한 사람이더라. 대화한번 들어봐.
영희 : 그래? 아 정말 그렇게 사람 안 봤는데? 너무 실망이다. 다른사람 뽑아야 겠다.
인공지능 딥페이크 보이스를 통한 정치인 대화 녹취 예시
이것은 가상의 정치 딥 페이크 사례이다. 인공지능 서비스 중 일레븐랩스(elevenlabs.io/) 라는 서비스가 있다. 해당 서비스는 내 목소리를 복제하는 AI 보이스 복제 서비스를 제공한다. 이것은 녹음된 내 목소리를 학습시켜, 내 목소리와 거의 똑같은 Text to Voice 를 제공하는 서비스이다.
예를 들어보자, 대부분의 정치인들은 유튜브 등 온라인 매체와의 인터뷰로 목소리 데이터를 얻기는 아주 쉽다. 만약 어떤 나쁜 마음을 먹은 사람이 해당 정치인의 목소리를 샘플링하여 일레븐 랩스에 학습시키고, 그 목소리를 가지고 허무맹랑하고 혐오스러운 대화를 Text to Voice로 생성하고, 또 녹취하여 온라인에 유포한다면? 일반 대중들은 그것을 듣고 잘못된 인식을 가질 수 있다.
미국의 대응
최근 미국 국회의원들은 자동녹음전화 규정을 점검하기 위한 새로운 법안을 제안중이라고 한다. 이 법안을 통해 인공지능 기반 사기의 폭발적 증가에 맞서 싸울 것이라고 밝혔다.
미국의 자동녹음전화는 한국에서 사용되는 여러 서비스와 유사하다.
- 자동통화 서비스: 미국과 한국 모두 자동통화 서비스가 널리 사용되고 있다. 미국에서는 자동녹음전화가 마케팅 목적, 정치 캠페인 또는 사기 목적으로 사용되는 경우가 많다. 한국에서는 유사한 자동화 서비스가 마케팅, 공고, 때로는 고객 서비스에 사용된다.
- 정보 전파: 두 국가 모두 신속한 정보 전파를 위해 이러한 자동 호출을 활용한다. 예를 들어, 한국에서는 미국의 일부 자동녹음전화가 공공 서비스 안내나 긴급 알림에 사용되는 방식과 유사하게 긴급 경보, 지역 사회 알림 또는 건강 주의보에 자동 알람 문자 형태로 사용된다.
- 고객 상호작용: 소매 및 서비스 산업에서 미국의 자동녹음전화와 마찬가지로 한국의 자동 호출 시스템이 고객 참여, 약속 알림, 피드백 수집을 위해 사용한다.
- 스팸 및 사기로 인한 어려움: 두 국가 모두 이러한 시스템의 오용으로 인해 어려움에 직면해 있다. 미국에서는 자동녹음전화가 사기 및 사기 활동에 사용되는 심각한 문제가 있다. 한국도 비슷한 문제에 직면해 있다. 보이스피싱 및 스팸 전화는 큰 문제이며, 특히 사기 목적의 보이스 피싱은 사회문제이기도 하다.
미국의 자동녹음전화와 한국의 자동전화 서비스 간의 유사점은 커뮤니케이션 및 마케팅을 위한 기술 사용의 공통 추세뿐만 아니라 규제 및 소비자 보호에 대한 공통된 형태를 보여준다.
이런 제안이 나온 계기는 미국 민주당에서 일어난 일과 관계가 있다. 최근 조 바이든 대통령을 사칭한 딥페이크가 온라인 상에 유포되고 있으며, 또한 가족이나 사랑하는 사람의 목소리를 복제하여 납치 등의 범죄에 이용되는 상황에 대한 대응이라고 볼 수 있다. 그 중에서도 최근 문제가 심각한 테일러 스위프트의 SNS X에서 유포된 포르노적인 사진도 딥페이크의 예로 들수 있다.
여기서 해당 법안에 대해 CNN 기사에 따르면 새 법안이 인공적으로 생성되거나 사전 녹음된 메시지를 포함하는 모든 통화나 문자 메시지를 포함하도록 자동녹음전화에 대한 정의를 크게 확장했으며, AI를 사용해 타인을 사칭하는 등의 미국 자동녹음전화 규정을 위반할 경우 벌금이 두 배로 늘어날 수 있다고 이야기 한다.
미국인이 은행이나 병원에서 승인한 것을 포함한 모든 자동녹음전화에서의 AI 사용은 제안된 법률에 따라 공개되어야 한다. 또한 이 법안은 자동녹음전화를 구성하는 모든 요소를 포함하여, 발신자가 책임 없이 악용할 수 있는 현행 법 하에서 허점을 막는 것을 목표로 한다. 이러한 추진은 2022년 미국에서 발생한 역사상 가장 큰 자동차 보증 사기 전화 업무 중 하나를 폐쇄하기로 한 연방통신위원회(Federal Communications Commission)와 같은 기관의 자동녹음전화에 대한 광범위한 단속이 진행 되는 가운데 이루어 졌다고 한다.
규제 당국은 또한 자동녹음전화와 문자에 대한 규정을 강화하도록 추진했으며 , 어떤 경우에는 원치 않는 전화를 조장하면 전화 서비스 제공업체의 연결을 강제로 끊을수도 있다고 한다.
새롭게 발표된 법안에는 또한 FCC와 연방거래위원회(Federal Trade Commission)에 사기꾼을 추적하고 벌금을 포함한 더 강력한 처벌을 내리는 데 도움이 되는 새로운 도구를 제공 할 것이라 한다. 하지만 원치 않는 자동녹음전화에 대해 어느 정도 사례와 근거를 확보했음에도 불구하고, 전화를 거는 사람들은 인공 지능과 같은 신기술로 점점 빠르게 눈을 돌리고 있다.

연방통신위원회(Federal Communications Commission)는 2024년 2월8일 인공 지능으로 만든 가짜 음성을 특징으로 하는 사기 자동녹음전화를 즉시 불법화하고, 선거정보를 훼손하거나 사기를 강화할 수 있다고 말하는 소위 “딥페이크” 기술을 단속한다고 밝혔다.
FCC 의장 제시카 로젠워셀(Jessica Rosenworcel)은 성명을 통해 “사기꾼들은 AI가 생성한 음성을 사용해 불특정 다수에게 자동녹음전화로 유인한 후, 취약한 가족 구성원을 갈취하거나 유명인을 흉내내며 유권자에게 잘못된 정보를 제공하고 있다”고 말했다.
AI 생성 음성을 포함하도록 한, 1991년 전화 소비자 보호법(TCPA)을 보다 광범위하게 해석하기로 결정한 것이다. 이것은 조 바이든 대통령을 사칭한 가짜 자동녹음전화가 수천 명의 뉴햄프셔 유권자를 표적으로 삼아 주 예비 선거에 참여하지 말라고 촉구한 지 몇 주 후에 나왔다.
당국은 이번 주 텍사스 남성과 몇몇 회사에 이러한 가짜 전화를 연결한 것에 대해 민사 및 형사 처벌로 이어질 수 있는지를 조사했다고 밝혔다.
FCC는 발표에서 자동녹음전화를 보내려는 사람은 “AI 기술을 통해 시뮬레이션되거나 생성된 인공 음성 또는 사전 녹음된 음성을 활용한 전화를 걸기 전에 수신자로부터 명시적인 사전 동의를 얻어야 한다”고 밝혔다.
또한 TCPA를 위반하면 엄격한 민사 처벌을 받을 수 있다. 2021년에 FCC는 2020년 선거에서 투표를 방해하기 위해 불법 자동녹음전화를 사용한 혐의로 2명에게 500만 달러의 벌금을 부과하였다.
자동녹음전화 차단 서비스 인 YouMail의 추정 에 따르면 미국에서 접수된 자동녹음전화 수는 2019년 약 585억 건으로 정점을 찍었으며 2023년 이 수치는 550억에 가까웠다.
FCC가 연방법 해석을 업데이트함에 따라, 일부 국회의원들은 불법 자동녹음전화를 방지하기 위한 강화된 법을 개정하려는 움직임을 보이고 있다. 그리고 민주당은 AI 사용과 관련된 자동녹음전화 위반에 대해 TCPA의 최대 처벌을 두 배로 늘리는 법안을 올해 발표했다 .
지속적으로 불법 자동녹음전화를 조장하는 전화 서비스 제공업체는, FCC 명령에 따라 주 및 연방 공무원에 의한 불법 자동녹음전화에 대한 광범위한 단속을 통해 미국 전화 네트워크에서 강제로 연결이 끊어 질 수 있다.
결론
처음 이야기 한 정치인을 대상으로 한 시나리오는 결코 가상의 시나리오가 아니다. 인공지능의 기술이 점점 발전함에 따라, 정보의 조작이 쉬어지고 또한 극단적인 대립의 정치가 횡횡하는 최근의 정치 행태에 따라서 무 비판적으로 정보를 받아들이기 더욱 더 쉬운 세상이 되고 있다. 기존의 증거가 없는 주장에 대해서도 편 가르기와 맹목적인 믿음이 일반적인 세상에서, “증거“로써의 딥페이크가 어떤 충격과 혼란을 가져올 지는 쉽사리 예상하기도 어렵다.
무엇보다 딥페이크의 기술과 의미를 이해하는 것은 디지털 시대에 매우 중요하다. 특정 사칭 컨텐츠를 접했을 때, 또한 그것이 “정치”의 영역에 있을때는 사실에 대한 인식 노력과 비판적 사고가 필수적이다. 이런 노력만이 그러한 콘텐츠로 인해 발생하는 오해를 줄이는 최선의 방어책이다.