AI 能在围棋上碾压世界冠军,为什么却玩不好卡牌游戏?
产品
04-01 16:25
-
评论
分享到微信
使用微信扫码将网页分享到微信
从 AlphaGo 战胜世界围棋冠军柯洁,到 Libratus 在赌场大胜多位德州扑克顶尖高手,人工智能似乎已经在棋牌类游戏领域所向披靡了。
不过这不意味着人工智能就能成为新的「赌神」,因为就算 AI 能在棋盘更快计算出各种可能性,但面对看似更加简单的纸牌类游戏,反而没那么得心应手了, 研发出 AlphaGo 的 DeepMind 就把下一个挑战的目标放在了一款卡牌游戏花火(Hanabi)上。
图自:《华尔街日报》
最近 DeepMind 和 Google Brain 团队在一篇论文中披露了这项研究的进展,与之前训练过的围棋和扑克等游戏不同, Hanabi 这款游戏要求 AI 更加深入了解其他玩家的心理,进行更高层次的推理,这也是 AlphaGo 这类 AI 目前面临的瓶颈。
AI 为什么玩不好纸牌游戏,在回答这个问题有必要先简单了解一下 Hanabi 这款卡牌游戏。
Hanabi 是一款 2-5 人的合作类型卡牌游戏,包含 5 种花色的牌组 。只有将不同花色的卡牌按照一定顺序的组合排列才能达成「花火」。
在牌局中玩家不能看自己的牌,只能看别人的牌,玩家只能有限的提示进行推理,或者和其他玩家进行战略性合作,才有机会在游戏中胜出。
从游戏规则就能看出,这款游戏对于沟通和推理能力的要求比较高,AI 需要读懂其他玩家提示字面意思外的隐藏信息,并推断出对手的意图。
▲ 图片来自:《赌圣》
研究人员很快就发现这并不容易。DeepMind 团队曾用在其他博弈游戏验证过了海量数据来进行训练,让算法利用自身副本进行 200 亿次「有效无限」的动作,按照玩家每次移动需要 30 秒计算,这相当于一个人在游戏中进行了 3 亿次操作或者玩了 1.66 亿小时游戏。
这种训练的效果在双人游戏中十分有效,然而在 Hanabi 这种有 4 人或 5 人参与的游戏中,AI 的表现却始终还是比专业玩家要差得多。
研究团队指出,算法要在不同环境的更好的交流需要高效的编码和适应性。比如不同玩家表述的风格和用语可能都不一样,但即便是最先进的 AI 也无法像人一样快速适应新的玩家,AI 只能遵循复杂但相对固定的规则,比如围棋。
目前 DeepMind 还没有很好的办法来攻破 Hanabi 这款游戏,他们 Github 上发布了一个开源平台,让人们可以测试和完善这个算法。
▲ 德州扑克专业玩家在与 AI 对决 . 图片来自:pittsburghmagazine
前两年人工智能 Libratus 在德州扑克大赛战胜人类,曾引起很大轰动。这就是因为相比起围棋响起等全信息游戏(双方牌面都相互知道),扑克的变化更多,往往也无规律可循,甚至要用到虚张声势等手段来影响对手。前百度首席科学家的吴恩达曾表示:
扑克曾经是 AI 最难攻克的游戏之一,因为关于游戏状态你只能看到部分信息。扑克并没有单一的最优下法。相反,AI 玩家必须让自己的行动随机化,这样它诈唬时才能让对方无法确定真假。
相比起扑克,Hanabi 这种卡牌游戏的难度更上一层楼,有着更多的变量和不确定性,不仅要分辨迷惑人的假象,还要与其他玩家进行沟通和协作。就像在电影《赌博默示录》中,即便是石头剪刀布,随着规则变动和参与人数的增加,也能变成一项高智商游戏。