Исследователи из Калифорнийского университета в Беркли обучают компьютеры любознательности
Когда вы впервые играли в Super Mario Bros. или Doom, скорее всего, вы не пытались ускорить игру, а вместо этого начали изучать пространство, несмотря на то, что не знали, чего можно ожидать за ближайшим углом. Именно это чувство любопытства, желание просто побродить по цифровому пейзажу, чтобы увидеть, что происходит, группа ученых из Калифорнийского университета в Беркли внедрила в свой компьютерный алгоритм. И это может стать кардинальным прорывом в области искусственного интеллекта.
Искусственный интеллект AlphaGo от Google, который только что многократно одержал победу над лучшими в мире игроками в «Го», использует так называемый алгоритм древовидного поиска Monte Carlo, чтобы выбрать следующий ход. Каждая «ветка» или решение в этом дереве имеет взвешенное значение, которое определяется из предыдущего опыта и относительной ценности вознаграждений, связанных с ним. Это называется стимулированным обучением, или о бучением с подкреплением, и в сущности представляет собой тот же способ, с помощью которого дрессируют собаку: поощрение эффективности и отказ в поощрении в случае неэффективности.
Этот метод хорошо работает на собаках, однако у него имеется существенный недостаток при обучении нейронных сетей: ИИ будет добиваться максимального вознаграждения несмотря ни на что, даже в ущерб собственной эффективности. Он будет бесконечно врезаться в одну и ту же стену, вместо того, чтобы немного подумать и перепрыгнуть ее.
Однако, искусственный интеллект команды из Беркли наделен способностью принимать решения и совершать действия даже тогда, когда немедленного выигрыша не получается. Впрочем, с технической точки зрения, исследователи определяют любопытство как «сбой способности агента предсказывать последствия своих действий в визуальном пространстве, усвоенной с помощью самонаблюдаемой модели обратной динамики».
Для обучения ИИ исследователи научили его играть в Super Mario Bros. и VizDoom. Как можно увидеть на видеоролике ниже, вместо того, чтобы повторять одно и то же действие высокой ценности, система играет скорее как человек, обладающий тем же базовым знанием, что игра не исчерпывается первой же стеной перед ним.
«Во многих реальных сценариях, вознаграждения, причитающиеся агенту, крайне скудны или вообще отсутствуют, – пишут авторы исследования. – В таких случаях любопытство может служить внутренним заменителем вознаграждения, позволяющим агенту изучать среду и получать навыки, которые могут оказаться полезными в его дальнейшей жизни».
Последствия этого события трудно переоценить. Темпы, с которыми искусственный интеллект становится все более умным и похожим на человека, ускоряются. А самое лучшее в том, что отсутствуют какие-либо признаки замедления.
26.05.2017 6:08