Экспериментальное исследование по использованию ChatGPT для робототехнических приложений

Исследователи из компании Microsoft, которая инвестировала миллиарды в OpenAI и недавно интегрировала ChatGPT в свою поисковую систему Bing, расширили возможности ChatGPT для управления роботизированной рукой и дроном.

На прошлой неделе Microsoft выпустила документ, описывающий ряд принципов использования языковых моделей в решении задач робототехники. "Оказалось, что ChatGPT может многое сделать сам, но ему все же нужна помощь", - пишет Microsoft о способности программировать роботов.

По словам Microsoft, использование языковых моделей (LLM, large language models) для управления роботами сопряжено с рядом трудностей, таких как предоставление полного и точного описания проблемы, определение правильного набора допустимых функций и API, а также смещение структуры ответа с помощью специальных аргументов. Чтобы эффективно использовать ChatGPT для робототехнических приложений, исследователи создали конвейер, состоящий из следующих этапов:

Во-первых, они определили высокоуровневую библиотеку функций робота. Эта библиотека может быть специфичной для интересующего форм-фактора или сценария и должна соответствовать реальным возможностям робота, при этом называться достаточно описательно, чтобы ChatGPT мог следовать по ней.
Далее создается подсказка для ChatGPT, которая описывает цель и одновременно определяет набор разрешенных функций высокого уровня из библиотеки. Подсказка также может содержать информацию об ограничениях или о том, как ChatGPT должен структурировать свои ответы.
Пользователь остается в цикле для оценки кода, выводимого ChatGPT, либо через прямой анализ, либо через моделирование, и предоставляет ChatGPT обратную связь о качестве и безопасности выводимого кода.
После итераций, сгенерированных ChatGPT, окончательный код может быть развернут на роботе.

В одном из примеров исследователи Microsoft использовали ChatGPT в сценарии манипулирования рукой робота. Они использовали обратную связь для обучения модели тому, как компоновать первоначально предоставленные API в более сложные высокоуровневые функции, которые ChatGPT программировал самостоятельно. Используя стратегию, основанную на учебном плане, модель смогла логически связать эти полученные навыки в цепочку для выполнения таких операций, как складывание блоков.

Сообщается, что модель смогла успешно выложить логотип Microsoft из деревянных блоков. Она взяла логотип Microsoft из своей внутренней базы знаний, "нарисовала" его в SVG, а затем использовать полученные выше навыки, чтобы определить,какие существующие действия робота помогут создать логотип из блоков.

Исследователи также экспериментировали с управлением дроном с помощью ChatGPT. Сначала они отправили ChatGPT довольно длинную подсказку, содержащую компьютерные команды, которые он мог написать для управления дроном. После этого исследователи могли делать запросы, чтобы проинструктировать ChatGPT как управлять дроном различными способами. По словам исследователей, он также смог написать структуры кода для навигации дрона, основываясь только на базовом API подсказки.

"ChatGPT задавал уточняющие вопросы, когда инструкции пользователя были неоднозначными, и писал сложный код для зигзагообразного маневра для визуального осмотра полок", - заявила команда. Они также применили этот подход к моделируемой области, используя симулятор Microsoft AirSim.

В опубликованном документе подчеркивается, что этим инструментам не следует передавать полный контроль над робототехническим конвейером, особенно для приложений, критичных с точки зрения безопасности. Учитывая склонность LLM к генерации неправильных ответов, довольно важно обеспечить качество решения и безопасность кода под контролем человека, прежде чем выполнять его на роботе. Исследователи ожидают, что последует несколько исследовательских работ с надлежащими методологиями для правильного проектирования, создания, тестирования, валидации и верификации для LLM, работающих в робототехнике.

Microsoft заявила, что ее цель в этом исследовании - выяснить, может ли ChatGPT мыслить не только текстом и рассуждать о физическом мире, чтобы помочь в решении задач робототехники. Ключевая задача научить ChatGPT решать задачи с учетом законов физики, контекста рабочей среды и того, как физические действия робота могут повлиять на изменение в окружающей среде.

Теги: Microsoft, ИИ

Новые комментарии

Большие языковые модели можно оптимизировать до 15% без потери качества

Гость

27.03.2026

12:54:31

Интересно, что в Сбербанке явно двигаются в сторону собственной оптимизации.

Нейросеть генерирует пугающие лица под музыку

Фанатка Франкенштейна

17.09.2025

03:22:03

Привет зловещая долина!)

Новости робототехники

Экспериментальное исследование по использованию ChatGPT для робототехнических приложений

Комментарии

Ищите команду разработчиков? Не можете найти робота для своих нужд? Пишите нам!

Новые комментарии

Другие статьи по теме

Категории