Ученые из Института робототехники Университета Карнеги-Меллона (CMU RI) работают над компьютерной системой, которая сможет читать язык тела вплоть до положения пальцев.
Новый процесс действует в реальном времени и даже в толпе, открывая возможности для более естественного способа взаимодействия людей и машин.
На данный момент взаимодействие с компьютером происходит через клавиатуру, мышь и сенсорный экран. Хотя используется еще и распознавание речи. Но при взаимном общении люди используют не только слова. Любой человек, общавшийся с детьми, знает, что половина человеческого общения происходит с помощью языка жестов и, не принимая это во внимание, взаимодействие может стать трудным и сложным.
Но заставить компьютеры идентифицировать человеческие позы задача не из легких. Часто трудноуловимые жесты включают такие детали, как положение отдельных пальцев, которые могут быть затенены объектами или другими людьми. Кроме того, при наличии больших баз данных для распознавания выражения лица и положения тела нет никаких данных по жестам и положению рук.
Группа во главе с Ясером Шейхом, старшим доцентом робототехники в CMU, объединила ряд подходов для решения этой проблемы. Один из них состоял в том, чтобы просто предоставить компьютеру больше данных, имея пару аспирантов, стоящих перед камерой и создавая тысячи разных позы и жестов.
Другой подход предусматривает изменение обычного способа распознавания компьютерами поз. Вместо того, чтобы рассматривать всего человека и обрабатывать его жесты, компьютер имел дело с отдельными руками, ногами и лицами, связывая их с человеком. Это было особенно полезно для просмотра массы людей.
Третьей особенностью стало использование студии Panoptic CMU, которая представляет собой двухэтажный купол с 500 встроенными видеокамерами. Это позволило компьютеру одновременно исследовать позы с сотен разных углов, используя большое количество субъектов.
В настоящее время с целью лучшего распознавания ведется работа по переходу от моделей в формате 2D к 3D. Конечной целью является создание системы, которая позволит одной камере и ноутбуку распознавать позы группы людей.
По мере совершенствования технологии, разработанной в CMU RI, она нашла ряд практических применений. Мало того, что она позволит людям с помощью жестов взаимодействовать с машинами, она также поможет беспилотным автомобилям принимать решения при встрече с людьми, собирающимися пересечь дорогу, будет действовать как автоматическая помощь для диагностики расстройств поведения и отслеживать на спортивном поле игроков, интерпретируя их действия.
Комментарии
(0) Добавить комментарий