Система машинного обучения распознает речь и объекты

Ученые Массачусетского технологического института разработали систему, которая учится распознавать объекты в изображении на основе его устного описания. Учитывая само изображение и аудио-сопровождение, модель будет выделять в режиме реального времени описываемые в данный момент объекты и области на картинке.

В отличие от сегодняшних технологий распознавания речи, эта система не требует ручной транскрипции и аннотаций на примерах обучения. Вместо этого она узнает слова напрямую из записанных речевых файлов и необработанных изображений, связывая их друг с другом.

Модель в настоящее время может распознать лишь несколько сотен разных слов и типов объектов. Но исследователи надеются, что однажды их комбинированная технология распознавания речи и изображений поможет сберечь бесчисленное количество часов ручного труда и открыть новые возможности в распознавании.

Например, такая система распознавания, как Siri, требует транскрипции многих тысяч часов записи речи. Используя эти данные, система научится сопоставлять речевые сигналы с конкретными словами. Такой подход становится особенно проблематичным, когда, скажем, новые термины вводятся в наш лексикон, и системы должны переучиваться.

Одним из перспективных применений разработанной в MIT системы является обучение переводу между различными языками без необходимости двуязычного комментатора. В мире примерно 7000 языков, только около 100 из них имеют необходимые транскрипционные данные для распознавания речи. Однако рассмотрим ситуацию, когда два человека на разных языках описывают одно и тоже изображение. Если модель узнает речевые сигналы из языка А, которые соответствуют объектам на изображении, и узнает сигналы на языке B, которые соответствуют тем же объектам, она может предположить, что эти два сигнала и соответствующие им слова являются переводами одного и того же фрагмента изображения.

Теги: MIT, ИИ

Ищите команду разработчиков? Не можете найти робота для своих нужд? Пишите нам!

Новые комментарии

AGI и человек: вчера, сегодня, завтра

Гость

14.09.2025

10:04:27

Поэтому попытка создать общий ИИ подобна тому как попытка создать вечный двигатель или найти философский камень, решить задачу квадратуры круга...

Ученые Smart Engines создали модель суверенного ИИ для распознавания и проверки подлинности документов

Новости робототехники

Система машинного обучения распознает речь и объекты

Комментарии

Ищите команду разработчиков? Не можете найти робота для своих нужд? Пишите нам!

Новые комментарии

Другие статьи по теме

Категории