Компьютер победил человека в шахматы, потом в покер. Искусственный интеллект умеет блефовать

Покер – одна из самых сложных игр для искусственного интеллекта. В отличие от шахмат или шашек, это игра с неполной информацией – компьютер не может точно знать, какие карты на руках у оппонента, он может только догадываться. Кроме того, в покере часто блефуют, что сложно поддается математическому анализу. Наконец, в покер играет, как правило, несколько человек с разными стратегиями – чтобы выигрывать, надо быть успешным против каждой.

Искусственный интеллект уже год как справился с этой задачей. Впрочем, сомнений в том, что это произойдет, не было по крайней мере с 2015 года, когда AI только начал свой путь к покорению покера. Это не повод для грусти – да, покер стал «решенной» игрой, но зато, как и в шахматах, изучение компьютерных стратегий обогатит игру и, возможно, приведет к пересмотру даже тех вещей, которые считаются аксиоматическими.

Расскажем обо всем по порядку, но сначала напомним, что играть в покер с живыми людьми лучше всего в покер-руме GGпокерок. Сейчас там идет мини-WSOP – серия турниров Good Game Series Of Poker для микролимитчиков, полностью повторяющая WSOP, только с небольшими бай-инами и высокими призовыми.

Первая победа: Cepheus

Сконструировать такой искусственный интеллект, который бы устойчиво обыгрывал людей в их любимые игры – одна из самых сложных задач современности, поэтому неудивительно, что ей занимаются в основном ученые. Программу Cepheus, названную то ли в честь персонажа греческой мифологии Кефея, то ли в честь созвездия (а скорее всего – в честь обоих), разработали еще в 2014 году эксперты из университета в Альберте.

Результаты их работы были опубликованы в Science: через 70 дней обучения Cepheus стал настолько хорошо играть в хедз-ап (=один на один) пот-лимит (=с фиксированными ставками) покер, что мог обыгрывать любого профессионала. Более того, он выбирал такие ходы, которые исключали, что человек, даже если будет играть с Cepheus всю жизнь, сможет достичь уровня компьютера. «Мы не говорим, что он будет выигрывать деньги каждую раздачу. Но на дистанции компьютер не может проиграть – будет ничья или победа AI», – радовался один из разработчиков Cepheus Майкл Боулинг.

Тогда казалось, что это еще не конец. В конце концов, покер с лимитированными ставками не настолько популярен, как безлимитный, к тому же понятно, что вариантов применить блеф там намного меньше. Поэтому победа Cepheus не оказала большого влияния на покерный мир, а ученые начали создавать такой компьютер, который бы умел играть в безлимитные игры.

И снова человек потерпел поражение: Libratus отомстил за Claudico

В 2016-м произошло важное событие не из мира покера, после которого стало понятно, что победа в безлимитной игре – вопрос времени. В 2016-м компьютер AlphaGo победил в го лучшего игрока планеты Ли Седоля.

Особенность той победы в том, что компьютер не перебирал комбинации, а учился «думать». Позднее в усовершенствованные AI системы AlphaGo вообще перестали загружать партии с людьми – искусственный интеллект учился только на партиях с самим собой (последняя версия AlphaGo обыграла ту, против которой сражался Ли Седоль, со счетом 100:0).

Одновременно с этим происходила работа над «решением» покера. Наиболее значительных результатов добились в Университете Карнеги Меллон. Сначала там создали Claudico, который в 2015 году сразился с четырьмя профессионалами в хедз-ап покер и проиграл – три из четырех профессионалов обыграли искусственный интеллект на дистанции в 80 тысяч раздач, на время подтвердив, что компьютеру не дается блеф.

За Claudico отомстил Libratus, разработка того же университета. В 2017 году он сразился также против четырех профессионалов, на этот раз количество раздач было увеличено до 120 тысяч, это заняло 20 дней. Уже в начале стало понятно, что профи соревнуются не с Libratus, а между собой – кто проиграет меньше всех. Компьютер легко обыграл всех четверых, зарабатывая по 14,7 больших блайнда за 100 раздач.

Теперь ученым предстояло самое сложное: допустить компьютер до покера, в котором играет больше двух человек. AI должен был не только научиться держать в голове несколько стратегий разных оппонентов, но и разыгрывать мультипоты – когда до вскрытия могут дойти сразу несколько человек.

И тут пришел Pluribus

Новую разработку университет Карнеги Меллон делал вместе с Facebook. В 2019 году Pluribus сыграл два матча: в одном он сражался с пятью профессионалами, в другом – профессионалы сражались с пятью копиями AI, которые не передавали информацию друг другу. Иными словами, Pluribus решил победить самый популярный тип покера.

За 12 дней компьютер сыграл 10 тысяч раздач и оказался успешен в обеих дисциплинах – покерные игроки не могли подобрать ключ к искусственному интеллекту ни в одиночку, ни когда все были за столом. Pluribus постоянно менял стратегии, не давая возможности различить паттерны в его действиях. Кроме того, он делал шаги, которые в покере считаются минусовыми и ассоциируются с действиями новичков. В частности, обсуждались его частые «донк-беты»: компьютер играл пассивно, а когда на столе появлялась следующая карта, вдруг ставил в оппонента, который до этого был агрессором (как правило, такие ставки считаются показателем блефа и легко раскусываются даже непрофессиональными игроками).

Из комментариев профессиональных игроков мы знаем, что все AI играют не только непредсказуемо, но и очень агрессивно: чтобы проверять их блефы или полублефы, игрокам надо жертвовать значительным количеством фишек. Кроме того, в его модель было заложено, чтобы Pluribus в основном сосредотачивался на следующих двух-трех шагах, а не на долгосрочной стратегии – и это дало неожиданно хорошие результаты.

«Можно с уверенностью сказать, что он играет на сверхчеловеческом уровне. И это уже не поменяется», – уверен один из разработчиков Pluribus Ноам Браун.

***

Теоретически еще остались виды покера, в которых искусственному интеллекту предстоит доказать свою состоятельность – например, в больших турнирах, где стратегию необходимо адаптировать к постоянному увеличению обязательных ставок. Тем не менее, уже сейчас можно сказать, что покер стал «решенной» игрой.

Разработчики Pluribus не планируют зарабатывать на покере: их модель перестала обновляться, и можно надеяться, что по крайней мере какое-то время такие AI не выйдут из стен научных лабораторий и не убьют онлайн-покер. Сами ученые считают, что похожие на Pluribus системы пригодятся в кибербезопасности, в финансовых переговорах, для предотвращения преступлений или будут помогать компьютерам в беспилотных автомобилях – в общем, везде, где приходится сталкиваться с решением задач с неполной информацией.

Ну а игрокам в покер остается только изучать раздачи Pluribus и других AI и подмечать в них что-то, что сделает их похожим на суперкомпьютер. А также соревноваться в онлайн и офлайн-турнирах по типу WSOP, Мировой серии покера для живых людей (искусственному интеллекту вход запрещен), которая в этом году проходила в покер-руме GGпокерок. За время серии общий призовой фонд превысил несколько десятков миллионов долларов.

Фото: poker.srv.ualberta.ca; youtube.com/Engadget ; qz.com