A team of Amazon researchers has announced the development of the largest text-to-speech (TTS) model ever created, opening up new possibilities for artificial intelligence technology. The model, called BASE TTS, was trained on 100,000 hours of public domain speech data and has 980 million parameters. It is believed to be the largest model in the text-to-speech domain to date. For comparison, the researchers said they also trained models with 400 million and 150 million parameters based on 10,000 and 1,000 hours of audio, respectively. This allows for more natural and fluent speech synthesis, according to the Amazon researchers. "We believe that BASE TTS can be used in a variety of applications, including customer service, education, and entertainment, and that this research will contribute significantly to the advancement of text-to-speech technology."
아마존 연구팀은 지금까지 제작된 것 중 가장 큰 텍스트 음성 변환(TTS) 모델을 개발하며 인공지능 기술의 새로운 가능성을 열었다고 발표했다. 'BASE TTS'라고 명명된 이 모델은 100,000시간의 공개 도메인 음성 데이터를 기반으로 훈련되었으며, 9억 8천만 개의 매개변수를 가지고 있다. 이는 현재까지 텍스트-음성 영역에서 가장 큰 모델로 평가받고 있다. 연구팀은 비교를 위해 10,000시간 및 1,000시간의 오디오를 기반으로 각각 4억 및 1억 5천만 개의 매개변수를 가진 모델도 훈련했다고 전했다. 이는 더욱 자연스럽고 유창한 음성을 합성할 수 있는 것으로 아마존 연구팀은 "BASE TTS가 고객응대, 교육, 엔터테인먼트 등 다양한 분야에 활용될 수 있다고 기대한다. 또한, 이번 연구는 텍스트 음성 변환 기술의 발전에 크게 기여할 것으로 평가된다"고 강조했다.