В идеале роботы должны гибко взаимодействовать с пользователями и объектами в окружающей среде. Одним из подходов, направленных на достижение этой цели, который в последнее время привлекает значительное внимание исследователей, является ZSON (Zero-shot object navigation).
ZSON предполагает разработку вычислительных технологий, позволяющих робототехническим агентам ориентироваться в незнакомой среде, взаимодействуя с ранее неизвестными объектами и реагируя на широкий спектр подсказок. Хотя некоторые из этих методик показали многообещающие результаты, зачастую они позволяют роботам находить только общие классы объектов.
Группа исследователей из University of Michigan поставила перед собой задачу разработать новый подход, который позволил бы расширить возможности роботов по исследованию открытых сред и индивидуальной навигации по ним. Предложенная ими схема, представленная в работе, опубликованной в arXiv, использует большие языковые модели (LLM), позволяющие роботам лучше реагировать на запросы пользователей, например, определять местоположение конкретных объектов.
В своей работе авторы представили новую задачу, которую они назвали ZIPON. Эта задача представляет собой обобщенную форму ZSON, которая предполагает точное реагирование на персонализированные подсказки и определение местоположения конкретных целевых объектов.
"Существующие работы по ZSON в основном сосредоточены на выполнении индивидуальных инструкций для поиска общих классов объектов, игнорируя использование взаимодействия на естественном языке и сложности идентификации специфических для пользователя объектов, - пишут в своей статье Иньпэй Дай, Рун Пенг и их коллеги. - Для устранения этих недостатков мы представляем ZIPON (Zero-shot Interactive Personalized Object Navigation), в которой роботы должны перемещаться к персонализированным целевым объектам, одновременно вступая в диалог с пользователями".
Если традиционный ZSON предполагает определение местоположения кровати или кресла, то ZIPON делает еще один шаг вперед, требуя от робота определить кровать конкретного человека, кресло, купленное на Amazon, и т.д. В дальнейшем исследователи попытались разработать вычислительную схему, которая позволила бы эффективно решить эту задачу.
"Для решения задачи ZIPON мы предлагаем новую структуру, названную Open-woRld Interactive persOnalized Navigation (ORION), которая использует большие языковые модели (LLM) для принятия последовательных решений по манипулированию различными модулями восприятия, навигации и коммуникации", - говорится в статье.
ORION состоит из шести ключевых модулей: модуль управления, семантическая карта, модуль OVD (open-vocabulary detection), модуль исследования, модуль памяти и модуль взаимодействия. Модуль управления позволяет роботу перемещаться в окружающей среде, модуль семантической карты индексирует естественный язык, а модуль OVD позволяет обнаруживать объекты на основе языковых описаний.
Далее роботы осуществляют поиск объектов в окружающей среде с помощью модуля разведки, сохраняя важную информацию и отзывы пользователей в модуле памяти. Наконец, модуль взаимодействия позволяет роботам разговаривать с пользователями, устно отвечая на их запросы.
Исследователи оценили свою систему как в имитационных, так и в реальных экспериментах используя мобильного колесного робота TIAGo. Результаты оказались многообещающими, поскольку предложенная ими система успешно улучшила способность робота использовать обратную связь с пользователем при попытке определить местоположение конкретных объектов.
Хотя фреймворк ORION демонстрирует потенциал для улучшения персонализированной навигации роботов в неизвестных средах, команда обнаружила, что одновременно обеспечить выполнение роботами заданий, плавную навигацию в неизвестных средах и эффективное взаимодействие с пользователями чрезвычайно сложно. В будущем это исследование может помочь в разработке новых моделей для выполнения задачи ZIPON, что позволит устранить некоторые из отмеченных недостатков предложенной командой схемы.
"Данная работа является лишь начальным шагом в исследовании LLM в персонализированной навигации и имеет ряд ограничений, - говорится в статье. - Например, в ней не рассматриваются более широкие типы целей, такие как цели, связанные с изображениями, или мультимодальное взаимодействие с пользователями в реальном мире. Наши дальнейшие усилия будут направлены на расширение этих аспектов с целью повышения адаптивности и универсальности интерактивных роботов".
Комментарии
(0) Добавить комментарий