20.12.2016

Машины учат слова как люди, по картинкам

Системы распознавания речи, подобные тем, что преобразуют произносимые слова в текст на смартфонах, как правило, являются результатом машинного обучения. Компьютеры просматривают тысячи или даже миллионы аудиофайлов и их транскрипцию, чтобы узнать, какие акустические характеристики соответствуют написанным словам.

Но расшифровка записей является дорогостоящей, трудоемкой работой, которая используется для ограниченного ряда языков.

На прошедшей недавно конференции по «Системам обработки нейронной информации» исследователи из Лаборатории искусственного интеллекта и информатики (CSAIL) Массачусетского технологического института (МIТ) представили новый подход к обучению систем распознавания голоса, который не зависит от транскрипции. Вместо этого их система анализирует соответствие между изображениями и устными описаниями этих изображений, собранными в большую коллекцию аудиозаписей. Система узнает, какие акустические особенности записи коррелируют с определенными характеристиками изображения.

«Цель данной работы заключается в попытке учить машину языку способом, который больше нравится людям, - говорит Джим Гласс, старший научный сотрудник CSAIL и соавтор доклада с описанием новой системы. - Современные методы обучения систем распознавания речи очень контролируемые».

Больших успехов удалось добиться в системе Google Siri, но она требует дорогостоящего обучения. Поэтому она обучена распознать лишь основные языки. В мире есть 7000 языков, и, вероятно, меньше 2 процентов из них поддерживаются системами распознавания речи. Новый подход специалистов МIТ, который они применяют на протяжении нескольких лет, использует менее контролируемый способ.

Как сообщается, новая система не соотносит записанную речь с письменным текстом, вместо этого она соотносит речь с группами тематически связанных изображений.

Например, если высказывание связано с определенным классом изображений, а изображения имеют связанный с ними текст терминов, тогда, вероятно, можно найти транскрипцию произношения без вмешательства человека. Аналогично класс изображений с соответствующим текстом терминов в разных языках может обеспечить способ автоматического перевода.

И, наоборот, текстовые термины, связанные с группами подобных изображений, таких как гроза и облака, позволяют сделать вывод об их значении. Благодаря тому, что система в каком-то смысле усваивает значения слов, связанные с ними образы, а не только звуки, она имеет более широкий спектр возможностей для применения, чем стандартные системы распознавания речи.

Для проверки своей системы исследователи использовали базу данных из 1000 изображений, каждое из которых имело запись в свободной форме связанного с ним словесного описания.

Теги: CSAIL, МIТ, ИИ

Ищите команду разработчиков? Не можете найти робота для своих нужд? Пишите нам!

Новые комментарии

Исследование о влиянии хирургического доступа на результат резекции почки

Владимир

24.07.2026

09:36:26

Важное исследование: ретроперитонеоскопический доступ объективно лучше — меньше кровопотери, боли и времени операции, выше показатель «почечной...

Евгений Маслов (Северсталь-инфоком): «Для нас был важен не просто производитель манипуляторов, а интегратор, который способен построить сварочный комплекс целиком»

Гость

24.07.2026

09:25:23

Очень интересное и содержательное интервью. Особенно ценно, что Евгений делится не только успехами, но и прагматичным взглядом на роботизацию — с...

Новости робототехники

Машины учат слова как люди, по картинкам

Комментарии

Ищите команду разработчиков? Не можете найти робота для своих нужд? Пишите нам!

Новые комментарии

Читайте также

Категории