구글의 "Tacotron2"가 인간의 목소리를 재현, 정도는 "거의 인간"

인공 지능(AI)이, 인간의 목소리를 완벽하게 재현하는 수준에 도달하려하고 있다. 지난해 12월 중순, 구글이 온라인 논문 공유 사이트 "아카이브(arXiv)"에 공개 한 보고서에 따르면, 바둑 AI "알파 바둑"으로 알려진 구글 딥 마인드가 개발 한 문자, 음성 변환 시스템 "Tacotron2"가, 인간과 구별 할 수 없을 정도로 자연스러운 발성 능력을 확보했다고 한다.



Tacotron2는, 두개의 신경망으로 구성되어 있다. 하나의 눈의 신경망은 문자를 스펙트럼으로 변환한다. 스펙트로 그램은 음파를 시간의 흐름에 따라 시각적으로 표현한 것을 가리킨다. 그 스펙트럼을 딥 마인드가 제작 한 음성 합성 소프트웨어 "웨이브 넷"에 넣으면, 웨이브 넷은 그 데이터를 분석하고 인간의 목소리를 읽어 낸다.


현재 Tacotron2의 평균 평가 점수(MOS=미디어의 품질을 수치로 평가하는 방법의 하나)는 4.53점을 마크 한 것으로 알려져있다. 이것은 녹음 된 인간의 목소리의 점수 4.58에 거의 가까운 수치다.




구글의 연구자들은 또한, Tacotron2가 발음하기 어려운 단어에 대해서도 잘 처리하기 시작하고 있다고 보고하고있다. 예를 들어, 구두점에 맞게 발음하거나 대문자로 쓰여진 단어를 강조하고 읽기 등이 이에 해당한다.



그러나 이 시스템은 아직 한명의 여성의 목소리만 흉내내고 있다는 단계에 있다는 것이 현실 인것 같다. 남성 혹은 다른 여성의 목소리를 모방하기 위해 더 많은 학습을 쌓을 필요가 있다. 또한 상술 한 이번 연구 결과는 심사(연구자 동료와 이 분야의 전문가에 의한 평가 및 검증)을 완료하지 않은 상태 인 것도 덧붙여두고 싶다.




하지만 인간의 목소리를 기계가 재현하는 알은 시시각각 다가오고 있는지도 모른다. 인공 지능을 이용한 "TTS : (Text to Speech)"기술의 장점은 곧 실용화 할 수 있다는 점에 있다. 자난해 공개 된 웨이브 넷은 현재 "구글 어시스턴트"에 채용되고있다. 



이번에 소개된 새로운 버전이 탑재되면, 사용자는 보다 자연스러운 음성 서비스를 받을 수 있을지도 모른다. 올해 인공 지능은 어디까지 인간의 소리를 재현 할 수 있게될까. 그 동향에 주목하고 싶다.