第三代AI赌神诞生:可在六人桌德扑中胜过5个人类顶尖高手
第50届世界扑克系列赛(WSOP)的六人桌无限德扑即将在7月13日开赛,但AI偏偏选在这个节骨眼上踢馆。
美国卡内基梅隆大学和Facebook公司7月12日在《科学》上发表论文称,他们联合开发的德扑人工智能Pluribus能在六人桌无限德扑中击败顶级人类玩家。
这些顶级高手包括拥有职业冠军头衔最多的达尔文?埃利亚斯(Darren Elias)、6次世界扑克系列赛冠军得主“耶稣”克里斯?弗格森(Chris Ferguson)和在职业生涯中赚了将近200万美元的麦克?加利亚诺(Michael “Gags” Gagliano)。
无论是一个Pluribus对战5个顶级人类玩家,还是五个Pluribus混战一个顶级人类玩家,经过1万手牌后,它的表现都会明显优于人类。
“Pluribus”是一个拉丁语词汇,意为“众”,美国国徽上就印有“E pluribus unum”(合众为一)的字样。起这个名字,无疑彰显这是世界上首个在多人德扑中超越人类专业选手的AI。
在过去的20年里,我们见证了西洋双陆棋、跳棋、国际象棋和围棋等游戏在人工智能面前纷纷沦陷。人机大战往往成为AI发展史上的里程碑事件,例如卡斯帕罗夫与“深蓝”、李世石与“阿尔法狗”的巅峰对弈。不过,这些事件无一例外局限于机器和一人对决,而扑克在传统上是个多人游戏。
从两人到多人,不仅只是量变,还对人工智能增加了许多根本性的挑战。Pluribus通过“行动抽象”和“信息抽象”等方式来解决这些挑战。在与5个“自己”博弈的过程中,Pluribus学会了六人局无限注德扑的玩法。
埃利亚斯的感受是,德扑AI最大的优势在于混合运用多种策略,这也是人类高手想要达到的境界。然而,绝大数人都无法持续性地随机调整策略。
Pluribus也验证了一些牌桌上广为流传的智慧。例如“平跟”(limping)这种在翻牌之前,选择跟平大盲注而不加注的策略对绝大多数玩家而言都是欠佳的选择,只有“小盲注”玩家除外,因其已经在池中下了等同于一半大盲注的筹码。
初出茅庐的“平跟”
美国卡内基梅隆大学计算机系教授托马斯?桑德霍姆(TuomasSandholm)已经钻研德扑程序16年。为了缔造AI赌神,他带着博士生诺姆?布朗(Noam Brown)先从1V1无限注德扑做起。他们开发的第一款德扑程序名为Claudico,在拉丁语中对应着“平跟”。
2015年4月到5月,Claudico在匹兹堡的河流赌场轮流与包括当时世界排名第一的道格?波尔克(Doug Polk)在内的四名人类顶尖高手过招。那次比赛历时13天,共计2万局牌。为降低运气成分,比赛使用的是镜像牌局的玩法,即在不同房间的两张牌桌上使用完全相同、但人机对调的两副牌。
初出茅庐的德扑AI在赛程过半时,就已落后人类约46万个筹码,最终以大约73万个筹码的劣势铩羽而归。
扑克对于AI来说为什么这么难?原来,扑克和跳棋、国际象棋和围棋有本质上的区别,是一种“不完美信息”的游戏,对手手中的牌面全程未知。在无限注局中,对手又可以任意下注。
著名深度学习专家吴恩达(Andrew Ng)曾说道,“扑克是人工智能最难攻克的游戏之一。每一步没有所谓的最优解,人工智能要采取随机的策略,这样它诈唬的时候对方才会吃不准。”
诈唬(bluff)是德州扑克的一种经典策略,它生动地体现了扑克游戏的“心理博弈”特征:即在手上的牌不够大的时候,依然虚张声势地加注,以吓退对手。为了达到好的诈唬效果,玩家的下注策略需要具备足够的随机性,以避免被对手摸清套路。总是诈唬的人和从不诈唬的人都不是一个好的德扑玩家。
从这个意义上来说,扑克是一种更接近真实人类社会的游戏,涉及到推理和欺骗。人工智能能学会诈唬吗?
卷土重来的“均衡”
IBM的“深蓝”经过了两次才战胜国际象棋传奇卡斯帕罗夫,德扑AI也在2年后实现了完美复仇。2017年1月,桑德霍姆和布朗带着一个名为Libratus的德扑程序卷土重来。
这个新名字对应着“均衡”,从纳什均衡的博弈模型里脱胎而来。桑德霍姆解释说:“在两名玩家的零和游戏中,如果双方都遵从纳什均衡,那就无人能以独自改变策略的方式来获益。在此类游戏中,以纳什均衡的方式思考是最安全的。AI会严格遵从纳什均衡,保证一个起码是平局的局面,若对手计算失误,均衡被打破,AI就能一击必杀。”
学会了纳什均衡的Libratus善于诈唬及不被诈唬。比如其中一盘,人类高中Jason Lee起手牌是一对10(非梅花),前三张公共牌为K、9、4(其中有两张梅花),第四张和第五张都开出了非梅花牌。此时,AI突然压上所有筹码,Lee选择不跟。通过隔壁的镜像局,我们发现AI当时的起手牌确实是两张梅花,也就是,AI最后在赌同花失败的情况下,成功通过诈唬赢下了一局。而在镜像局中,AI早早为手上一对10下了重注,最后人类玩家同样选择弃牌。
同样是匹兹堡的河流赌场,同样是无限注德扑,人机大战的剧情截然不同。Libratus从比赛第一天就全面压制,一路领先。最终,Libratus赢得的筹码数量达到惊人的176.6万美元。
此后还有一个小插曲。李开复曾经邀请桑德霍姆带着Libratus前来中国举办表演赛,并取了一个中文名“冷扑大师”。
统筹全局的“众”
纳什均衡虽然对双人游戏很有利,但并不适用于多人游戏。Pluribus需要一种更为统筹全局的玩法。它首先通过6个“自己”混战,计算出了一种“蓝图”策略,足以应对首轮的下注。接着,它建立起一个精细度非常高的游戏沙盘,分析所有可能的走法。为了节省算力,Pluribus不会推演到终盘,而只是推演接下去的数步。
这看上去是游戏类AI的常规路径,但在非完美信息游戏中进行前瞻性推演格外具有挑战性。在每一个决策点的分叉上,AI要考虑每个对手的可能举动,也要分析自己可采取的应对,形成的决策树就会十分庞大。不过,桑德霍姆团队这次开发出了一种新算法,保证AI只需要计算每个对手接下去的5种可能性,就能在大战略上形成制衡。
Pluribus也变得更加狡猾。如果手上持有场上可能有的最好的牌,那加注是一个理性的选择。但如果每次都在持有好牌时才加注,就可能被对手识破规律。Pluribus会计算在对手来看,自己手上所有可能有的牌型,以及与之相对应的表现,最终选定一种均衡的方案。
最后,Pluribus也在计算效率上进行了改进。前一代Libratus用了1500万个核心小时计算出策略,并在1V1现场对决中占用了1400个CPU核数。这一代的Pluribus仅用12400个核心小时就形成蓝图策略,并在现场博弈时占用28个CPU核数。
麦克?加利亚诺(Michael “Gags” Gagliano)说道:“与德扑AI对战,观察它做选择的策略是非常令人激动的。我看到它做了一些人类根本不会去做的下注举动。”
布朗认为,Pluribus的许多创新性的大法可能会在根本上改变这项游戏。例如,绝大多数人类玩家都不会在一个回合末平跟,却在下一回合开始时加注。传统上认为这是一种没有任何战略意义的举动。但是,Pluribus经常会这么做,也许这背后有值得深思的地方。
- 预见2025:HTX的全球化蓝图与战略突破2025-01-15 19:08
- 中国首家鱼子酱体验店 卡露伽鱼子酱旗舰店落户浙江衢州水亭门2025-01-06 12:28
- 宝珀品牌大使黄轩:我的下一块宝珀2024-12-31 20:39
- 智蛇起舞,蛇来运转 宝珀Blancpain发布2025中华年历蛇年限量款2024-12-27 10:30
- 宝珀Blancpain挚献全新Ladybird钻石舞会情人节限量款腕表2024-12-27 10:28
- 绿表风向标——今年,宝珀绿不同凡响!2024-12-27 10:23
- 阿迪达斯轻运动蛇年系列,新年焕新态 携手演员陈晓、马思纯、那尔那茜一同开2024-12-26 14:03
- 阿迪达斯轻运动蛇年系列,新年焕新态 携手演员陈晓、马思纯、那尔那茜一同开2024-12-26 14:03
- 沪苏联手率先打造绿色智慧示范航线 2024第二届浦东航运周开幕2024-12-06 10:21
- 首届“利伯兰杯”辩论赛下周开赛:新国辩冠军张子龙领衔,Web3辩论揭幕战2024-12-05 17:16
- 18:23周大生经典十万份黄金好礼大放送,点燃蛇年春节喜气氛围
- 11:13JJ斗地主拒绝赌博,引领棋牌游戏新风尚
- 10:37行业唯一!海尔智家获最具投资价值奖
- 10:24周大生黄金珠宝嘉年华即将盛大开启,十万份黄金好礼贺蛇年春节
- 09:28惠达卫浴与京东深化合作,开启2025健康卫浴新生活
- 19:08预见2025:HTX的全球化蓝图与战略突破
- 18:22惠达卫浴与京东深化合作,开启2025健康卫浴新生活
- 18:08“陆地航母”上线,人类距离打飞的上班还有多久?
- 17:54亚马逊最大规模电动卡车订单落地:豪购超200辆奔驰eActros
- 15:36百利好推出全新交易产品,开拓财富新篇章
- 21:10七座商务车都有哪些?上汽大通 MAXUS G90亮点解析
- 21:05云米电器质量怎么样,云米燃气热水器AI Super2:智享未来,温暖每一
- 20:51CR450动车组样车正式发布,标志着中国高铁技术新突破
- 20:03IP+文旅还能怎么玩?酷乐潮玩全国文旅首店给出了答案
- 18:09周大生大师艺术珠宝以璀璨黄金诠释印象派艺术
- 15:58CES新物种(下):中国原创,世界领先——通用软体机器人技术赋能全球生产
- 10:38CES 2025观察:海信空调的新风,继续吹向AI风口
- 16:22周大生经典在传承中创新,精心打造东方文化精品珠宝
- 15:59智能驱动,豫见未来——“热AI在郑州·百度品牌之夜”圆满落幕
- 15:49驰援西藏,周大生捐款助力日喀则抗震救灾
- 15:21CES 2025 现场直击 | 万勋科技携通用软体机器人惊艳首秀,多元化
- 16:33CES新物种(中):类人肌体,过人能力——通用软体机器人技术,加速机器人
- 15:35百利好解锁投资新机遇,全新交易产品正式上线!
- 19:52周大生国家宝藏系列青花新品匠心传承千古瓷韵
- 14:55CES新物种(上):机器人变软——通用化、可商用的软体机器人亮相CES
- 12:28中国首家鱼子酱体验店 卡露伽鱼子酱旗舰店落户浙江衢州水亭门
- 10:38商聚荷城 合创未来 第二届贵港市荷商大会在城区胜利召开
- 17:23蛇年贺岁启新程,与周大生经典共赴宋韵风华
- 09:56燕京啤酒率先拉开春节营销大幕,官宣国民闺女关晓彤为品牌代言人
- 16:42周大生新年珠宝璀璨亮相,共度2025年的美好时光