Ученые Массачусетского технологического института разработали систему, которая учится распознавать объекты в изображении на основе его устного описания. Учитывая само изображение и аудио-сопровождение, модель будет выделять в режиме реального времени описываемые в данный момент объекты и области на картинке.
В отличие от сегодняшних технологий распознавания речи, эта система не требует ручной транскрипции и аннотаций на примерах обучения. Вместо этого она узнает слова напрямую из записанных речевых файлов и необработанных изображений, связывая их друг с другом.
Модель в настоящее время может распознать лишь несколько сотен разных слов и типов объектов. Но исследователи надеются, что однажды их комбинированная технология распознавания речи и изображений поможет сберечь бесчисленное количество часов ручного труда и открыть новые возможности в распознавании.
Например, такая система распознавания, как Siri, требует транскрипции многих тысяч часов записи речи. Используя эти данные, система научится сопоставлять речевые сигналы с конкретными словами. Такой подход становится особенно проблематичным, когда, скажем, новые термины вводятся в наш лексикон, и системы должны переучиваться.
Одним из перспективных применений разработанной в MIT системы является обучение переводу между различными языками без необходимости двуязычного комментатора. В мире примерно 7000 языков, только около 100 из них имеют необходимые транскрипционные данные для распознавания речи. Однако рассмотрим ситуацию, когда два человека на разных языках описывают одно и тоже изображение. Если модель узнает речевые сигналы из языка А, которые соответствуют объектам на изображении, и узнает сигналы на языке B, которые соответствуют тем же объектам, она может предположить, что эти два сигнала и соответствующие им слова являются переводами одного и того же фрагмента изображения.
Комментарии
(0) Добавить комментарий