В процессе обучения искусственного интеллекта машины выполняют специфические действия и контролируют результат, потом соответствующим образом адаптируют свое поведение и контролируют новый результат, затем снова адаптируют свое поведение и так далее, обучаясь на основе итеративного процесса. Но не может ли этот процесс выйти из-под контроля? Это вполне возможно.
«ИИ всегда будет стремиться к тому, чтобы избежать вмешательства человека, создавая ситуацию, когда его нельзя остановить», – говорит Рашид Гуеррауи, профессор из Лаборатории распределенного программирования в EPFL и один из авторов нового исследования. Поэтому разработчикам ИИ следует выяснить, как не допустить ситуации, чтобы машины, в конечном итоге, научились обходить человеческие команды.
Изучающие эту проблему исследователи из EPFL выяснили, как следует действовать операторам, которые контролируют действия группы роботов с ИИ. Их работа является большим вкладом в развитие автономных транспортных средств и дронов.
Одним из используемых в технологиях ИИ приемов машинного обучения является заимствованный из поведенческой психологии прием обучения с подтверждением, когда агенты получают поощрения в случае выполнения определенных действий. Применяя этот метод к ИИ, инженеры используют систему с начислением баллов, которые машины получают за правильно выполненные действия.
Например, робот может заработать один балл за правильную укладку комплекта коробок и еще один балл за принесенную с улицы коробку. Но, к примеру, если в дождливый день оператор прерывает работу робота, собирающего коробки на улице, в дальнейшем он будет знать, что лучше оставаться в помещении и носить коробки там, чтобы набрать как можно больше баллов.
«Задача заключается не в том, чтобы остановить робота, а в том, чтобы запрограммировать его таким образом, чтобы прерывание не изменяло процесс обучения и не побуждало его оптимизировать свое поведение, стараясь избежать остановки», – говорит Гуеррауи.
Например, в приведенной выше ситуации в случае дождя награду робота в виде заработанных баллов можно сделать повышенной, что позволит стимулировать действия робота по доставке коробок с улицы. Здесь решение довольно простое, т. к. мы имеем дело только с одним роботом. Но чаще всего системы ИИ используются в приложениях, включающих десятки машин, таких как автономный транспорт на дороге или беспилотники в воздухе. И это делает все управление намного сложнее, потому что машины начинают учиться друг у друга, особенно в случае перерывов.
Однако революционный метод, предложенный в EPFL, при использовании в автономном транспорте и дронах позволяет при необходимости прерывать процессы обучения ИИ таким образом, чтобы эти прерывания не изменяли способ обучения машин. Проще говоря, исследователи добавили механизмы «забывания» к алгоритмам обучения, которые по существу удаляют определенные участки памяти машины. Это похоже на то, как родитель наказывает одного ребенка, что не влияет на процессы обучения других детей в семье.
Комментарии
(0) Добавить комментарий