$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

어떤 목소리도 몇 분 안에 흉내 내는 인공지능

New AI Mimics Any Voice in a Matter of Minutes

2017-05-25

지난주 캐나다 몬트리올의 스타트업 라이리버드는 머신러닝을 이용하여 1분 분량의 녹음에서 음성 지문을 추출할 수 있다고 발표했다. 이제 여기에서 더 나아가 감정이나 억양을 더해 유명인이나 일반인의 목소리에 근접할 수 있는 기능을 추가했다.

라이리버드의 목소리에는 여전히 약간의 기계음이 남아 있지만 왜곡을 가리기 위한 배경 소음을 적절하게 배치하면 의심 없이 들을 경우 진짜로 판단할 수 있다. 포토샵을 이용하여 편집한 이미지가 널리 퍼지고 가짜 뉴스가 소셜 미디어를 점령한 가운데, 누구의 목소리도 흉내 낼 수 있는 프로그램은 문제를 더 일으킬 것처럼 보인다.

몬트리올 대학의 박사과정 학생이자 창업자인 알렉상드르 드 브레비송은 매일 10만 명이 웹사이트를 방문하고 있으며 여러 유명한 투자자들의 주목을 받고 있다고 말했다.

기계가 만든 음성이라고 하면 거부감이 들겠지만 음성합성 같은 기술 자체는 나쁜 것이 아니다. 발성 장애 혹은 마비 환자들에게 이 기술은 의사소통할 수 있는 목소리를 제공한다. 시각장애인들에게 신문이나 온라인 상의 문자를 기반으로 한 정보를 전달할 수 있다. 시리와 코타나 같은 인공지능에 기반을 둔 개인 비서들도 자연스러운 인터페이스를 위해 음성합성을 이용한다. 또한 오디오북 제작사들도 자동 혹은 저렴하게 음성합성 기술을 이용할 수 있다.

인간-컴퓨터 인터페이스를 개선하고 완전히 새로운 애플리케이션을 만들기 원한다고 한 라이리버드의 목표는 실시간으로 문자를 음성으로 전환하는 프로그램 개발이다. 여기에는 두 가지 오랜 도전이 있는데, 먼저 인공지능이 문자의 서로 다른 구성요소를 “이해해야” 하고 다른 하나는 입력된 문자로 지연 없이 자연스럽게 적절한 소리를 만들어야 한다는 것이다.

발성을 위해 문자를 분석한다는 것이 다소 이상하게 보이지만 단어, 구, 문장에 대한 억양의 많은 부분이 문장에 따라 달라진다. 예를 들면, 의문문은 끝이 올라가고 어떤 단어는 시제에 따라 발음이 달라지기도 한다. 하지만 더 어려운 기술은 소리를 만드는 것이다. 예전의 음성합성 기술은 개별 소리를 생성하는 알고리즘에 기반을 두고 있어 로봇 소리처럼 들렸다.

요즘에는 음성합성을 위해 실제 녹음된 인간의 목소리로 이루어진 막대한 데이터베이스를 이용하여 목소리 요소를 나누고 연결하여 부드럽게 새로운 문장을 만든다. 이 소리는 덜 로봇처럼 들리지만 목소리를 여자에서 남자로 바꾸는 등 모든 새로운 목소리를 위해 새로운 데이터 집합이 필요하다. 음성 데이터베이스는 모든 가능한 단어를 담고 있어야 하므로 구축이 매우 어렵다. 만약 데이터베이스에 없는 단어라면 음성합성 장치가 부자연스러워진다.

인공지능이 만든 목소리는 신원을 가장하는데 사용할 수 있으므로 음성을 기반으로 한 보안 시스템은 더 이상 안전하지 않게 된다. 라이리버드는 진짜 목소리와 합성 목소리를 쉽게 구분할 수 있는 “성문(voice print)"에 대한 작업을 하고 있지만 실생활에서 일반인이 이것을 이용하는 것은 기대하기 힘들다.

인간은 본능적으로 감정이 실린 목소리를 신뢰하는 경향이 있다. 명백한 합성음과 달리 라이리버드의 목소리는 친구에게 이야기하는 것처럼 쉽게 다가갈 수 있다. 대기하는 시간 동안 의뢰인을 진정시킬 수 있고 사회공학적으로도 훌륭한 도구가 될 수 있다. 사람들은 더 쉽게 개인 정보를 누출시키거나 인공지능이 추천하는 물건을 구매하게 될 것이다.

라이리버드도 이런 윤리적 문제를 인지하고 있지만 기술을 무시하는 것은 나아갈 방향이 아니라 교육과 인식을 통해 포토샵이 퍼진 때와 같은 상황을 만들어야 한다고 밝히고 있다. 라이리버드는 사람의 목소리를 복제하는 기술이 존재하고 있음을 모든 사람들이 인식하고 기술을 공개하여 모든 사람이 이용할 수 있게 한다면 그런 위험을 줄일 수 있을 것으로 본다고 덧붙였다.

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로