[뉴스토마토 김동현 기자] 네이버가 음성 인공지능(AI) 기술 가운데 하나인 음성합성 기술의 윤리 논란을 피하고자 합성음 내에 워터마크(원본 데이터에 본래 소유주만 알 수 있는 표식을 삽입하는 기술)를 넣는 방안을 고려 중이다.
김재민 네이버 음성합성 리더는 4일 서울시 강남구 D2스타트업팩토리에서 열린 네이버 테크포럼에서 "사람음성과 기계 합성음성을 구별하기 위해 합성음에 워터마크를 넣는 방식을 고려할 수 있다"고 말했다. 네이버는 지난달 일본에서 열린 라인 콘퍼런스에서 사람 음성을 AI가 학습해 AI 스피커 등 기기를 통해 그대로 내보내는 기술인 음성합성 기술을 선보였다. 이번 언급을 통해 사람음성과 인공적으로 만들어진 기계음을 구별할 수 있어야 한다는 윤리문제가 불거지기 전 해결방안을 제시한 것으로 풀이된다.
이미 네이버는 일부 기술에 이 방법을 도입하고 있다. 지난 2016년 네이버가 공개한 '유인나 오디오북'은 배우 유인나씨의 목소리를 AI가 음성합성해 만든 오디오북이다. 유씨의 목소리를 들려주며 배경에 음악을 틀어놔 실제 목소리와 구별하고 있다. 해외에서는 구글이 지난 5월 인간을 대신해 인간처럼 말할 수 있는 AI서비스 '구글 듀플렉스'를 선보이며 통화 상대방에게 'AI가 통화 중'임을 밝히게 했다.
네이버는 음성합성 기술이 상용화 단계에 이르렀다고 판단하고 있다. 김 리더는 "네이버 음성합성 기술을 사용할 경우 4시간이면 사람의 목소리를 구현할 수 있다"고 말했다. 다만 유명인의 목소리를 합성하려면 당사자 등과 계약을 해야 하므로 당장은 어렵다는 입장이다. 네이버는 향후 이 기술이 상용화 단계에 이르면 네이버 AI스피커를 통해 개인의 목소리를 합성해 구현할 수 있을 것으로 보고 있다. 가정에서 부모들이 목소리를 합성해 자녀에게 동화책을 읽어주는 방식 등에 활용할 수 있다.
네이버는 음성인식 기술을 활용해 AI스피커가 말하는 이를 구분하는 화자인식 서비스를 하반기 중에 내놓을 계획이다. 한익상 네이버 음성인식 리더는 "화자인식 기술은 누가 말하는지 인식하는 기술과 등록된 사용자가 말했는지 인증하는 기술 등 2가지가 있다"며 "각 기술을 서비스에 적용할 것"이라고 말했다. 구체적으로는 화자에 따라 좋아하는 음악을 추천하거나 화자의 라인 메신저 메시지를 읽어주는 방식이 가능하다. 또는 상품 주문·결제 등을 할 때 등록된 화자 목소리로만 가능하게 하는 것도 한 예로 들 수 있다.
다만 기기의 발전으로 음성AI가 홈 사물인터넷(IoT), 스마트카 등에 적용되더라도 화자인식 기술을 전면 적용하지는 않을 것으로 보인다. 한 리더는 "화자인식 기술은 지문·홍채 인식보다 보안성이 떨어진다"며 "홈IoT·스마트카 출입문 개폐 등은 보안 인증 문제가 발생할 수 있다"고 말했다.
한익상 네이버 음성인식 리더가 4일 서울시 강남구 D2스타트업팩토리에서 열린 네이버 테크포럼에서 음성인식 기술에 대해 설명하고 있다. 사진/김동현 기자
김동현 기자 esc@etomato.com