음성 전문 기업으로 20년 이상 국내외 시장에서 선두를 유지하고 있는 리드스피커코리아(대표이사 이종석)는 최근 인공지능(AI) 기술이 적용된 음성합성기를 대량으로 출시한다고 밝혔다(30개 언어, 88개 음색).
최근 제4차 산업혁명 시대를 맞아 대화형 인공지능 서비스 등 다양한 분야에서 응용되고 있는 음성합성기는 향후 산업이 발전하면서 그 응용 분야는 더욱 다양해질 것으로 예상되고 있다. 음성합성기는 초기에는 음소 단위의 유닛(Unit)으로 분리된 음성을 데이터베이스로 구축하고, 문자가 입력되면 데이터베이스에서 적절한 유닛을 선택해 순서대로 합성하는 USS(Unit Selection Synthesis) 방식을 사용했다. 그 이후 USS의 단점을 보완하고자 통계 기반의 파라미터 합성방식을 사용했다. 이 방식은 음원의 특정 성분을 파라미터로 추출한 뒤 HMM(Hidden Markov Model) 등의 통계 기법으로 모델링하고, 문자가 입력되면 훈련된 모델로부터 파라미터를 생성해 목소리를 만들어 낸다. 그러나 이 방식도 음질이 다소 낮고, 합성음의 운율이 원음보다 부자연스러운 단점이 있다. 따라서 최근 인공지능(AI) 기술이 대두되면서 기존 음성합성 기술의 단점을 극복하기 위한 방법으로 음성합성에도 인공 지능(AI)이 접목되고 있는 추세이다. AI 기술이 음성합성에 적용되면서 기존 HMM으로 모델링했던 부분을 신경망(Neural Network)으로 대체했다. 이렇게 함으로써 음성파형을 원음에 가깝게 출력할 수 있으나, 연산량이 많아서 GPU가 요구되는 등 제약사항이 따른다. 그러나 리드스피커코리아는 이를 극복하기 위해 CPU 기반으로도 신경망 기반의 음성 합성이 가능하도록 개발했으며, GPU가 없는 플랫폼(Platform)에서도 사용이 가능하도록 해 비용을 절감할 수 있도록 했다.
리드스피커코리아는 그동안 언어와 음색의 개발을 꾸준하게 추진하여 왔으며, 핵심 음성기술 분야에서 세계적인 기술력을 보유하고 세계적인 기술회사로 도약하기 위해 노력하고 있다. 인공지능(AI) 기술을 음성합성에 적용하기 위한 연구는 오래전부터 연구소를 중심으로 진행했으며, 2017년 일부 언어에 대한 인공지능(AI)이 적용된 음성합성기를 한국 최초로 출시했고, 추가적인 연구를 계속해 아시아, 북미/남미, 유럽, 중동 등의 주요 언어 30개와 88개 음색에 대한 개발을 완료했다. 이제 리드스피커코리아는 한국을 넘어 세계 No 1이 되기 위해 더욱 노력할 것이며, 제4차 산업혁명 시대의 핵심 기술인 음성기술의 전문기업으로 더욱 발전하고자 임직원은 더욱 노력할 것이다.