Система F3RM позволяет роботам интерпретировать текстовые подсказки на естественном языке

Вдохновившись способностью человека обращаться с незнакомыми предметами, группа специалистов из MIT CSAIL разработала систему Feature Fields for Robotic Manipulation (F3RM), которая объединяет 2D-изображения в 3D-сцены, помогая роботам распознавать и захватывать близлежащие предметы.

F3RM позволяет роботам интерпретировать текстовые подсказки на естественном языке, помогая им манипулировать предметами. В результате роботы могут понимать менее конкретные запросы человека и при этом выполнять поставленную задачу. Например, если пользователь попросит робота "поднять высокую кружку", то робот сможет найти и взять предмет, наиболее подходящий под это описание.

"Создать роботов, способных к обобщенным действиям в реальном мире, невероятно сложно, - говорит Гэ Янг, постдок в MIT CSAIL. - Мы очень хотим понять, как это сделать, поэтому в этом проекте мы пытаемся добиться агрессивного уровня обобщения - от трех или четырех объектов до всего, что мы найдем в MIT Stata Center. Мы хотели научиться делать роботов такими же гибкими, как мы сами, поскольку мы можем схватывать и размещать объекты, даже если никогда их раньше не видели".

Этот метод может помочь роботам при отборе товаров в крупных центрах обработки заказов, где неизбежно возникает беспорядок и непредсказуемость. На таких складах роботам часто дают описание товара, который они должны идентифицировать. Роботы должны сопоставить предоставленный текст с объектом, независимо от разницы в упаковке. Например, в центрах обработки заказов крупных интернет-магазинов могут храниться миллионы товаров, со многими из которых робот никогда раньше не сталкивался. Для работы в таких масштабах роботам необходимо понимать геометрию и семантику различных предметов, причем некоторые из них могут находиться в ограниченном пространстве. Благодаря расширенным возможностям пространственного и семантического восприятия F3RM робот сможет более эффективно находить предметы, помещать их в контейнер и отправлять на упаковку.

Система F3RM с помощью селфи-палки делает 50 снимков с различных ракурсов, что позволяет использовать Neural Radiance Fields (NeRF) - метод глубокого обучения, который использует 2D-изображения для построения 3D-сцены. Этот коллаж из RGB-фотографий создает "цифрового двойника" окружающей среды. Помимо этого F3RM строит поле признаков, дополняя геометрию семантической информацией. Система использует Contrastive Language-Image Pre-Training (CLIP) - это базовая модель, обученная на огромном наборе данных пар изображений и текста.

Чтобы продемонстрировать способность системы интерпретировать открытые запросы человека, исследователи попросили робота поднять Бэймакса, персонажа диснеевского фильма «Город героев». Хотя F3RM никогда не обучали подбирать игрушку, робот использовал свои пространственные знания и зрительно-языковые функции из базовых моделей, чтобы определить объект и способ его захвата.

Работа "Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation" была выложена на сайте arXiv и будет представлена на Conference on Robot Learning 2023 на следующей неделе.

Теги: MIT, CSAIL

Ищите команду разработчиков? Не можете найти робота для своих нужд? Пишите нам!

Новые комментарии

AGI и человек: вчера, сегодня, завтра

Гость

14.09.2025

10:04:27

Поэтому попытка создать общий ИИ подобна тому как попытка создать вечный двигатель или найти философский камень, решить задачу квадратуры круга...

Новости робототехники

Система F3RM позволяет роботам интерпретировать текстовые подсказки на естественном языке

Комментарии

Ищите команду разработчиков? Не можете найти робота для своих нужд? Пишите нам!

Новые комментарии

Другие статьи по теме

Категории