Подразделение DeepMind компании Google, которое работает над созданием «супер-умных» компьютеров, создало систему автоматической генерации речевых сигналов, которая, как утверждается, превосходит существующие образцы на 50%.
Британская компания DeepMind, которую Google приобрела примерно за 400 миллионов фунтов стерлингов ($533 млн.) в 2014 году и уже прославившаяся своей программой AlphaGo, разработала искусственный интеллект под названием WaveNet, который может имитировать человеческую речь, изучая способы формирования отдельных звуковых волн человеческим голосом.
В слепых тестах на американском английском и китайском языках сгенерированная WaveNet речь, по мнению слушателей, звучала более естественно, чем созданная с помощью других программ Google по переводу текста в речь, которые основаны на различных технологиях. Но результаты WaveNet еще хуже записи реальной человеческой речи.
Многие компьютерные программы синтеза речи работают с использованием большого набора данных из коротких фрагментов речи одного человека, объединяя их для того, чтобы сформировать новые слова. В результате мы имеет четкое, но не вполне естественное звучание. Недостаток заключается в том, что звуки голоса трудно изменить. Другие системы формируют звуки речи полностью в электронном виде, как правило, на основе правил о том, как отдельные комбинации букв произносятся. Эти системы позволяют манипулировать звучанием голоса, но они звучат менее естественно, чем синтезируемая компьютером речь на основе записей человеческого голоса.
WaveNet представляет собой тип ИИ, называемый нейронной сетью, которая предназначена для имитации, как части функции мозга человека. Такие сети необходимо обучать с использованием больших наборов данных.
Но WaveNet не будет пока иметь непосредственного коммерческого применения, потому что система требует слишком серьезной вычислительной мощности. Аудиосигнал должен контролироваться как минимум 16000 раз в секунду, отмечает DeepMind. А затем для каждого из этих контрольных отсчетов необходимо произвести особую математическую обработку. Даже исследователи DeepMind признали в своем блоге, что это «является явно сложной задачей». Тем не менее, технологические компании, скорее всего, обратят пристальное внимание на результаты иссследований DeepMind. Речь становится все более важным способом взаимодействия людей с вещами, от мобильных телефонов до автомобилей. Марк Беннет, международный директор Google Play, которая продает приложения для Android, сказал на конференции Android разработчиков в Лондоне, что 20 процентов мобильного поиска в Google выполняются с помощью голоса.
Компьютеры научились понимать разговорный язык, но несколько отстают их способности естественно разговаривать.
Google раскрыла некоторые сведения о том, каким образом исследования DeepMind помогают в коммерческой деятельности. Компания использовала технологию DeepMind, чтобы уменьшить на 40% энергетические потребности своих центров обработки данных, экономя достаточно денег, чтобы оправдать сумму, затраченную на покупку лондонской компании. Также отмечается, что DeepMind помогла добиться «существенных улучшений в наборе услуг от YouTube и Google Play и рекламных продуктов Google».
Комментарии
(0) Добавить комментарий