Люди, как правило, способны хорошо выделять отдельный голос в толпе, но могут ли это делать компьютеры? До сих пор это у них не очень хорошо получалось. Однако теперь у Google есть удивительно простое решение. Исследователи разработали систему глубокого обучения, которая может выбрать конкретные голоса, глядя на лица людей, когда они говорят.
Команда обучила свою модель нейронной сети распознавать голоса отдельных говорящих людей, а затем создали виртуальные «вечеринки» (в комплекте с фоновым шумом), чтобы научить ИИ изолировать несколько голосов в различные звуковые дорожки.
Результаты оказались великолепными. Даже тогда, когда люди явно пытаются перекричать друг друга (например, комики Джон Доре и Рори Сковел), ИИ может генерировать чистую звуковую дорожку для одного человека, просто сосредоточив внимание на его лице. Разделение достигается, даже если человек частично скрывает свое лицо жестами или микрофоном.
Google в настоящее время изучает возможности использования этой функции в своих продуктах. Потенциально она идеально подходит для видео-чат сервисов, таких как Hangouts или Duo, где она может помочь понять, кто говорит в переполненном помещении. Разработанный ИИ также может быть полезен для повышения разборчивости речи в видео записи. Это позволит создать связанные с видеокамерой слуховые аппараты, которые повышают уровень звука того, кто находится перед вами.
Есть потенциальные проблемы конфиденциальности (технология может быть использована для общественного прослушивания). Однако разработчики уверяют, что не будет большой проблемы для того, чтобы ограничить разделение голоса только для людей, которые уже четко дали на это свое согласие.
Комментарии
(0) Добавить комментарий