Студенты Стэнфордского университета недавно смогли запустить на старенькой игровой консоли Atari 2600 такую сложную игру, как Месть Монтесумы под управлением ИИ. Эти начинающие исследователи надеются, что подобный подход может пригодиться и в будущем, когда простые домохозяйки возьмутся за обучение роботов и ИИ.
Как сказал в одном из интервью Рассел Каплан, один из соавторов исследования: «Обычные люди должны иметь возможность разговаривать со своими машинами».
Чтобы научить ИИ игре в Месть Монтесумы, они обучали модель ИИ распознаванию команд на человеческом языке и игровым действиям, вместо обычного подхода с обучением модели AI на шаблонах игровых пиксельных данных, пока она не выяснит, как можно выиграть. Затем исследователи руководили действиями ИИ по инструкциям типа «получить награды» или «хватайтесь за трос».
После подобной тренировки ИИ смог получить высокую оценку в 3500 баллов. Это впечатляющий показатель, но не лучший – модель ИИ из лаборатории DeepMind компании Google смогла достигнуть в этой игре 6600 баллов в прошлом году — это самая высокая оценка для машины. Тем не менее, студенты отмечают, что они не могли обучать свой ИИ так тщательно, как DeepMind, из-за ограниченной вычислительной мощности их машины.
Месть Монтесумы особенно трудна для компьютеров, потому что в игре очень мало наград, таких как получение ключа в наполненной опасностями комнате, что усложняет ее для машины, пытающейся узнать, какие игровые действия ведут к выигрышу. DeepMind реализовала это путем создания новых математических бонусов, чтобы вести исследование ИИ. У команды из Стэнфорда другой подход: вместо использования псевдо-наград, они тренируют компьютер пониманию команд на человеческом языке. Хотя это более напоминает взаимодействия людей с роботами.
Возможно, в будущем обучить домашнего робота премудростям поварского искусства можно будет и таким образом: «Возьми вот эту ложку. Теперь смешай ингредиенты. Все готово!»
«Традиционный метод действий ИИ – это перебор случайным образом заданных комбинаций кнопок, пока он не получит награду по результатам действий, а затем научится реализовывать этот кнопочный алгоритм в будущем», - сказал Каплан. Но с естественными инструкциями на языке человека процесс обучения становится немного менее случайным, а ИИ или робот смогут ориентироваться в задачах повседневной жизни.
Комментарии
(0) Добавить комментарий