Результаты исследования учёных Московского Политеха помогут снизить количество аварий на дорогах и производстве

Компьютерное зрение лишено физиологических особенностей человека, оно хуже распознает изображения, что нередко приводит к авариям различной тяжести. К такому выводу пришли ученые Московского Политеха и ВШЭ после проведенного исследования. Результаты работы опубликованы в сборнике Proceedings of Seventh International Congress on Information and Communication Technology.

Областями применения полученных российскими учеными данных могут стать автоматизированный транспорт, производство, строительство и, наконец, домашнее хозяйство, в котором все чаще используются роботы-пылесосы, дроны, умные системы безопасности, в «служебные обязанности" которых входит распознавание и определение препятствий.

Для оценки разницы между машинным восприятием изображений и человеческим исследовательский тандем ученых из Московского Политеха и НИУ ВШЭ загрузили изображения классических визуальных иллюзий в онлайн-сервис распознавания образов IBM Watson Visual Recognition. Работу проводили доцент кафедры Инфокогнитивных технологий Информационной безопасности Московского политехнического университета Екатерина Пшехотская и аналитик Научно-учебной лаборатории методов анализа больших данных факультета компьютерных наук ВШЭ Владимир Винников.

Большая часть изображений представляла собой геометрические силуэты, частично скрытые геометрическими формами цвета заднего плана. Система пыталась определить, что представляет собой поступившее изображение, и указывала степень уверенности в своем ответе.

«Одним из практических результатов нашего исследования должна стать проверка адекватности систем автопилота различных транспортных средств, в том числе, как такие системы «считывают» изображение дороги в условиях плохой видимости, — рассказывает Екатерина Пшехотская, исследователь из Московского Политеха. — В таких ситуациях восприятие увиденного человеком от машинного отличает то, что человек, увидев нечто непонятное, либо останавливается, либо сбрасывает скорость. В отличие от систем автопилота, где в большинстве случаев в подобных ситуациях срабатывает бинарная логика: они либо фиксируют препятствие, либо считают, что препятствия нет».

Объяснением этому является непроизвольное движение человеческого глаза, светочувствительная поверхность его сетчатки имеет форму полусферы. Изображению достаточно быть векторным, то есть иметь опорные точки, которые человеческое воображение легко соединит между собой благодаря тому, что глаз человека постоянно движется, в этом и состоит физиологическая особенность нашего зрения.

Оптико-электронные системы компьютерного зрения устроены по-другому. Их светочувствительная матрица имеет плоскую, в большинстве случаев прямоугольную форму, при этом система линз не может постоянно двигаться, как человеческий глаз. Именно по этой причине искусственный интеллект не способен прочертить воображаемые линии, чтобы связать между собой фрагменты геометрической иллюзии. Машинное зрение видит только реальное изображение, часто неполное, в то время как человек создает в воображении цельную картину, опираясь на очертания предмета.

«Теоретически этот пробел можно компенсировать, если интегрировать в системы компьютерного зрения симуляцию человеческой физиологии и векторизацию изображения. Эти иллюзии будет проще распознавать, потому что мы будем иметь дело не с растровой картинкой, а с векторной. Можно будет работать с мнимыми изображениями, например, для двух непараллельных отрезков строить продолжение и находить их точку пересечения на плоскости. Но это задача будущих исследований», - комментирует Екатерина Пшехотская.

Степень вероятности аварии и катастроф зависит от точности изображения. Например, если автопилот автомобиля или самолета не распознает объект с низкой контрастностью относительно фона, соответственно, он не успеет вовремя уклониться от препятствия, а, следовательно, риск катастрофы повышается.

«Когда мы проводили это исследование, то изучали наработки других ученых в этой области. На данный момент в области компьютерного зрения представлено крайне мало подобных исследований. Однако мы нашли медицинские и психологические исследования в области восприятия изображений, так появилась идея использовать набор визуальных иллюзий применительно к системам машинного зрения», — рассказала Екатерина Пшехотская.

Екатерина Пшехотская поделилась планами по дальнейшему исследованию совместно с Владимиром Винниковым (ВШЭ), цель исследования - изучить, насколько хорошо машинное зрение распознает рисунки, сгенерированные другими машинами. Иными словами, как машина распознает действия другой машины. Возможно, машина видит что-то, чего не видит человек, и это может стать перспективным направлением в области машинного обучения.

Теги: Московский Политех

Новые комментарии

Первый в мире говорящий и ходящий робот Эрик может вернуться к жизни (+ видео)

Гапс Гость 008

25.04.2025

03:31:51

Удивительно!

Компания Tesla продемонстрировала своего робота

Pavel Mart

18.04.2025

11:47:57

На данном этапе роботостроения это мало эффективно - он может выполнять только ограниченные манипуляции заложенным человеком программным ...

Новости робототехники

Результаты исследования учёных Московского Политеха помогут снизить количество аварий на дорогах и производстве

Комментарии

Ищите команду разработчиков? Не можете найти робота для своих нужд? Пишите нам!

Новые комментарии

Другие статьи по теме

Категории