Google уделяет особое внимание исследованиям в области искусственного интеллекта. В настоящее время технологический гигант сделал еще один шаг, чтобы дальше продвинуться в этой области. Google заявляет, что последняя версия системы синтеза речи Tacotron 2, созданная на основе ИИ, довольно точно имитирует человеческую речь.
Убедиться в достоверности этого утверждения может любой пользователь интернета по выложенным в сети образцам фраз, синтезируемых ИИ Tacotron 2.
Tacotron 2 является вторым поколением технологии Google для преобразования речи в текст, включающим для безупречного воспроизведения речи нейронные сети глубокого обучения. Первая нейронная сеть отвечает за перевод текста в спектрограммы, которые позволяют визуализировать звуковые частоты. Спектрограммы затем подаются в WaveNet, которая представляет собой систему, разработанную в лаборатории DeepMind. WaveNet читает карты спектрограмм и создает подобные им звуковые элементы.
Конечно, перевод речи в текст не является технологической новинкой, особенно для пользователей компьютеров Mac. Однако Google утверждает, что новая технология перевода текста в речь превосходит большинство других вариантов и воспроизводит почти неотличимые от человеческой речи звуки.
После прослушивания и сравнения образцов речи живого человека и синтезированной Tacotron 2, можно отметить достаточно близкое сходство и превосходство над другими технологиями синтеза, которые звучат явно механически.
Tacotron 2 использует также контекст, чтобы верно произносить даже совершенно одинаковые слова. Технология реагирует на знаки препинания, используемые в тексте, соответственно изменяя темп речи, а также может научиться писать прописными буквами отдельные слова в заголовках на английском языке.
Комментарии
(0) Добавить комментарий