Модели компьютерного зрения уже могут определять предметы на фотографиях с точностью, превосходящей возможности человека в ходе лабораторных испытаний. Тем не менее, в реальных условиях точность алгоритмов значительно снижается, что вызывает опасения, связанные с автономным вождением и другими технологиями на основе компьютерного зрения.
Для решения этой проблемы исследователи из Массачусетского технологического института и IBM решили создать набор данных другого типа. Его назвали ObjectNet, по аналогии с ImageNet, базой данных пользовательских фотографий, которая послужила одним из стимулов нового этапа развития искусственного интеллекта.
В отличие от базы ImageNet, состоящей из фотографий из Flickr и других социальных сетей, изображения в ObjectNet загружают наемные работники. Объекты на фотографиях лежат на боку, размещены под необычным углом или запечатлены на фоне множества других предметов. Исследователи испытали ведущие модели компьютерного зрения с использованием этих снимков – точность распознавания упала с 97% на ImageNet до 50-55% на ObjectNet.
Значительная часть недавнего прогресса в сфере искусственного интеллекта обусловлена переходом на глубинное обучение – система применяет искусственные «нейроны» для обнаружения закономерностей в огромных массивах данных. Таким образом, программа тренируется на сотнях или тысячах примеров и учится узнавать на фотографии, например, стулья. Однако даже наборы из миллионов изображений не могут отразить все возможные варианты расположения конкретного предмета – в реальной жизни точность неизбежно ухудшается.
ObjectNet отличается от традиционных наборов данных также тем, что в базе нет специальных тренировочных изображений. Большинство наборов данных разделяются на снимки для тренировки алгоритма и для проверки его возможностей. При этом часто изображения из двух категорий похожи друг на друга, что значительно повышает шансы программы успешно распознать предметы в ходе испытания. В ImageNet содержится 14 миллионов фотографий, однако без учета тренировочной части масштабы сопоставимы с ObjectNet, куда входит 50000 снимков.
Комментарии
(0) Добавить комментарий