DeepMind, лондонская дочерняя компания Google, объявила о создании машины, играющую в древнюю китайскую игру го намного лучше, чем ее предшественник AlphaGo, который в прошлом году выиграл матч у Ли Седола, мастера мирового уровня из Сеула.
Прежнее программное обеспечение было подготовлено за несколько месяцев с использованием огромной базы данных, включающей записи игр мастеров, и получило целый ряд рекомендаций от своих создателей. Затем прошел этап совершенствования за счет множества игр против себя. Новый ИИ, названный AlphaGo Zero, не получил никаких наставлений и баз данных — он тренировался полностью самостоятельно от начального уровня до гроссмейстера.
После нескольких дней обучения новая машина сразилась со старой в турнире со стандартным временем на игру по два часа на одного игрока. Итог — AlphaGo Zero выиграл всухую матч из 100 игр!
Чтобы понять новую систему, мы должны сначала рассмотреть версию прошлого года. Она состоит из трех частей: алгоритма поиска, симулятора Монте-Карло и двух глубоких нейронных сетей.
Алгоритмы поиска указывают ходы в компьютерных шахматных программах. Алгоритм начинается с перечисления всех возможных ходов, затем всех возможных ответных ходов, и так создается дерево анализа. Затем используется второй алгоритм для оценки конечной позиции на каждой ветви дерева. Наконец, выбирается ход, который ведет к лучшему результату, если противник также выберет лучшие ходы. Алгоритм поиска имеет ограниченное значение для го, потому что так сложно оценивать конечные позиции.
Моделирование методом Монте-Карло генерирует большое количество возможных игр, чтобы понять, как часто данный ход приводит к хорошим результатам. Другие программисты уже пробовали этот метод для го и получили достойные внимания результаты в 2014 году.
Глубокие нейронные сети были применены к го в первый раз инженерами DeepMind под руководством генерального директора Демиса Хассабиса и Дэвида Сильвера. В дополнение к алгоритму поиска и методу Монте-Карло, оригинальная система AlphaGo использовала две сети, одна из которых была обучена подражать игре мастеров, примером которой является огромная база данных игр, а другая — для оценки позиций. Затем программа играла миллионы раз против себя, чтобы превзойти уровень человеческих игроков.
DeepMind называет такое самообучение усиленным обучением и AlphaGo Zero полагается только на эту методику. Никакой поиск или метод Монте-Карло в AlphaGo Zero не используется. Машина играла много раз, глядя только на доску и на черно-белые камни, которые занимают свои места, перемещаются на пересечениях 19 вертикальных и 19 горизонтальных линий. И машина использовала только одну нейронную сеть, а не две.
В итоге всего за год алгоритм от DeepMind превратился из направляемого человеком в полностью автономный. Причем используемые мощности значительно уменьшились, а новая версия программы превзошла исходную на 100%. Есть над чем задуматься.
Комментарии
(0) Добавить комментарий