Робот Sun Devil использует специальную версию алгоритма обучения с помощью метода проб и ошибок, чтобы в течение двух часов самостоятельно научиться забрасывать мячи в кольцо. Созданный в Университете штата Аризона преподавателем информатики Беном Амором, алгоритм называется «sparse latent space policy search».
Он позволяет роботу сначала научиться координировано перемещать составляющие элементы двух манипуляторов в виде рук. Робот затем постепенно устраняет неудачные решения, чтобы прийти к успешным.
В некотором смысле, этот алгоритм связан с методами обучения людей. Люди врожденно понимают взаимосвязь между различными суставами и их совместными движениями, а роботы должны этому научиться.
Бен Амор говорит, что его подход является ускоренным вариантом обучения методом проб и ошибок, который «имеет свои ограничения, так как может потребовать для робота тысячи, возможно, миллионы испытаний, чтобы узнать точно, что нужно сделать, чтобы выполнить задачу».
Создатели Sun Devil использовали двурукую конструкцию, поскольку она затрагивает другие проблемы машинного обучения и координации действий робота. Многие решающие проблемы координации движений роботы решают упрощенную задачу с использованием одной руки, например, робот, играющий в настольный теннис или бильбоке.
Sun Devil также решает задачу с динамическим движением, говорит Бен Амор. Бросок мяча в баскетбольное кольцо не может быть выполнен в старт-стопном режиме. Он требует взрывного динамического движения, что недоступно для многих обучающихся роботов.
«Это требует от робота динамически применить силу в нужное время, отказываясь от метода «разобщения» широко используемого в области информатики и машинного обучения», - говорит Бен Амор.
Комментарии
(0) Добавить комментарий