Системы распознавания речи, подобные тем, что преобразуют произносимые слова в текст на смартфонах, как правило, являются результатом машинного обучения. Компьютеры просматривают тысячи или даже миллионы аудиофайлов и их транскрипцию, чтобы узнать, какие акустические характеристики соответствуют написанным словам.
Но расшифровка записей является дорогостоящей, трудоемкой работой, которая используется для ограниченного ряда языков.
На прошедшей недавно конференции по «Системам обработки нейронной информации» исследователи из Лаборатории искусственного интеллекта и информатики (CSAIL) Массачусетского технологического института (МIТ) представили новый подход к обучению систем распознавания голоса, который не зависит от транскрипции. Вместо этого их система анализирует соответствие между изображениями и устными описаниями этих изображений, собранными в большую коллекцию аудиозаписей. Система узнает, какие акустические особенности записи коррелируют с определенными характеристиками изображения.
«Цель данной работы заключается в попытке учить машину языку способом, который больше нравится людям, - говорит Джим Гласс, старший научный сотрудник CSAIL и соавтор доклада с описанием новой системы. - Современные методы обучения систем распознавания речи очень контролируемые».
Больших успехов удалось добиться в системе Google Siri, но она требует дорогостоящего обучения. Поэтому она обучена распознать лишь основные языки. В мире есть 7000 языков, и, вероятно, меньше 2 процентов из них поддерживаются системами распознавания речи. Новый подход специалистов МIТ, который они применяют на протяжении нескольких лет, использует менее контролируемый способ.
Как сообщается, новая система не соотносит записанную речь с письменным текстом, вместо этого она соотносит речь с группами тематически связанных изображений.
Например, если высказывание связано с определенным классом изображений, а изображения имеют связанный с ними текст терминов, тогда, вероятно, можно найти транскрипцию произношения без вмешательства человека. Аналогично класс изображений с соответствующим текстом терминов в разных языках может обеспечить способ автоматического перевода.
И, наоборот, текстовые термины, связанные с группами подобных изображений, таких как гроза и облака, позволяют сделать вывод об их значении. Благодаря тому, что система в каком-то смысле усваивает значения слов, связанные с ними образы, а не только звуки, она имеет более широкий спектр возможностей для применения, чем стандартные системы распознавания речи.
Для проверки своей системы исследователи использовали базу данных из 1000 изображений, каждое из которых имело запись в свободной форме связанного с ним словесного описания.
Комментарии
(0) Добавить комментарий