В Google создали компьютерную программу для преобразования текста в речь Tacotron 2, способную в точности имитировать человеческий голос, сообщает Quartz.
Система состоит из двух нейросетей глубокого обучения. Первая переводит текст в спектрограмму и передает алгоритму WaveNet, который озвучивает ее, читая диаграммы и генерируя соответствующие звуковые элементы.
Тacotron 2 справляется с трудными для произношения словами и названиями, а также меняет речь в зависимости от пунктуации. Например, она может с помощью интонации подчеркнуть слово, написанное с заглавной буквы.
Пока Tacotron 2 может озвучивать тексты только на английском языке и только женским голосом. Ожидается, что программа будет внедрена в сервисы Google, например Google Assistant или фирменный онлайн-переводчик.
Образцы работы Tacorton 2 можно послушать на официальном сайте Google.