新浪科技 李根
新浪科技今日独家获悉,卡耐基梅隆大学(Carnegie Mellon University,以下简称CMU)开发的德扑人工智能程序Libratus,将在4月来到中国,与中国德扑玩家进行德扑界的“人机大战”。
新浪科技还获悉,这款CMU开发的名为Libratus的德扑程序,将以“冷扑大师”的译名挑战中国德扑高手,而这场挑战赛的发起者,正是CMU校友、创新工场创始人李开复。
新浪科技也就此向创新工场做了进一步求证,但对方表示不予置评。
Libratus曾碾压人类高手赢200万美元
实际上,Libratus并非初出茅庐的毛头“程序”。在今年春节期间,Libratus就已经在宾夕法尼亚州匹兹堡的Rivers赌场,将4位人类职业玩家挑落马下,并且夺走了共计176万美元的奖金。
当时,美国东部时间1月30日,CMU开发的 Libratus与四名人类职业玩家 Jason Les、Dong Kim、Daniel McAulay 和 Jimmy Chou 约战宾夕法尼亚州匹兹堡的Rivers赌场,并在持续20天的比赛时间中,对玩 12 万手,最后 Libratus赢走了总数200万美元奖金中的176万美元 。
值得注意的是,与Libratus对战的都是德扑职业玩家中的高手。比如其中的Dong Kim,还在2年前在同一个赌场击败了这个人工智能的前身,但在这场为期二十天的比赛刚刚过半之时,Kim就直言:人类已经没有真正获胜的机会。
Libratus的这场人机大战中的胜利,也迅速引发关注。即便在AlphaGo之后,AI击败人类已经不再是什么新闻,但人工智能在德州扑克上击败人类,这其中的难度和信息量不可小觑。
AI玩德扑为何难?
利用人工智能程序玩德扑,最大的难度在于“不完整信息博弈”。因为玩德州扑克需要推理能力,而这对于机器来说很难模仿。虽然人工智能在跳棋、象棋乃至围棋比赛中,已经完胜人类对手,但无限注德州扑克是一个完全不同的情况。
此前据AI新媒体《量子位》报道,由于一些卡牌并没有发出来,在德州扑克的对局里,任意时间,任何一个玩家,都只能观察到一部分的情况。要赢,他们需要直觉:一种猜测其他玩家手上是什么牌的能力。而且还要考虑到对手每一种可能的打法,想得到理想的战略非常困难。而
现实世界中,不完美信息才是常态,各种看不见的隐藏信息产生了大量的不确定性,而德州扑克代表的就是这种类型的博弈。在围棋界纵横无敌的AlphaGo,本质上处理的还是完美信息博弈,而AlphaGo无法处理德州扑克的问题,更遑论使出诈唬。
新浪科技则了解到,为了解决“不完整信息博弈”这种计算机难题,CMU 的人工智能研究者们专注于信息集,通过同时思考未知和已知变量各种可能状态的方式来进行预测,这需要强大的计算能力。
在计算能力方面,CMU主要依赖于Bridges Super Computer超级计算机。每个牌局结束后的夜晚,匹兹堡市超级计算中心Bridges电脑执行计算,用以优化Libratus的策略。而在白天的比赛过程中,Bridges用于计算每一手的终结游戏策略,Bridges提供三种类型的计算选项,称为节点:常规、大型和超大型。Bridges不是当今世界最大、最快、最强劲的超级计算机,但它可能是面向公众开放的,最大、最快、最强劲的超级计算机,在Bridges的帮助下,原本在个人电脑上耗时数月的计算,仅仅几个小时就搞定。
此外,在计算能力保障的基础上,CMU在具体技术应用方面,用到了区别于AlphaGo的方法。CMU方面曾披露称,Libratus没有用到专业的牌局进行神经网络的训练,不同于AlphaGo用了大量的棋局做训练,这个模型用的是随机生成的牌局(随机产生公共牌、底池筹码、玩家拿牌概率)和尝试性的动作带来的结果(在随机生成的输入情况下模拟玩家跟牌后的结果)作为训练数据。
Libratus 还利用了博弈论,与AlphaGo不同,Libratus系统不通过分析大量可能的下一步完成任务,这个 CMU 构建的新系统通过平衡风险与收益来决定自己的下一步,在纳什均衡定义中的完美游戏状态。
最后,在具体操作上,Libratus分三步走。
第一阶段,Libratus通过名为反事实遗憾最小化(counterfactual regret minimization)的算法,在经过训练之后独立于人的玩法形成自己的策略。
第二阶段,第二个系统属于一种“残局解算器”。它可以分析游戏状态并聚焦于第一套系统的注意力,使人工智能在比赛过程中也能进行学习。
第三阶段,Libratus会借助Brown,运用一个算法来识别出那些被玩家利用的机器玩法,然后从策略中剔除掉。
赢了人类又怎样?
当然,人工智能程序Libratus在德扑赢了人类,还不止于会改变德州扑克发展历程这么简单。跟AlphaGo一样,它很容易应用到其他领域,并且更加有效且快速地解决人类难题。
因为玩德州扑克需要推理能力和心理战术,而这对于机器来说很难模仿。在围棋界纵横无敌的DeepMind AlphaGo本质上处理的还是完美信息博弈,无法处理德州扑克的不完美信息问题,更遑论使出诈唬(Bluffing)。
而Libratus的例子说明,AI在面临不完全或误导信息时,已经有进行推论的能力。现实世界中,不完美信息才是常态,各种看不见的隐藏信息产生了大量的不确定性,而德州扑克代表的就是这种类型的博弈。
所以在未来,Libratus这样的AI,可以用于商业谈判、网络安全、医疗方案制定等领域。
而人工智能发展的终极目标,很可能会产生一个通用人工智能(AGI)。通用人工智能可以解决任何一个问题,而不是像Libratus或者AlphaGo这样只能专注于扑克或者围棋。想要实现AGI就得让人工智能学会解决不确定性问题,这也是Libratus让科技界、科学界兴奋不已的最主要原因。
为何还要在中国掀起“人机大战”?
不过,既然Libratus已经在正式比赛中战胜了顶级职业玩家,为何还要专门来到中国掀起“人机大战”?更何况德州扑克跟围棋还不一样,中国并非德扑的华山之巅。
新浪科技希望就此向创新工场咨询,但对方并未对此作出回应。
不过新浪科技有可靠渠道和可信资料证明,把CMU的德扑程序Libratus带进中国的,正是CMU的知名校友、现创新工场创始人:李开复。
值得一提的是,李开复还专门为“Libratus”取了中文名——冷扑大师。
新浪科技独家获悉的资料显示,李开复作为发起人,将在海南举办一场“人机扑克华人巅峰表演赛”,人类代表方面将由前人人网高管、2016 德州扑克赛冠军,WSOP 链获得者杜悦领携,取名“龙之队”。与在匹兹堡进行的人机德扑大战一样,本次比赛也有专门奖金,总额200万元。
至于为何是李开复和创新工场作为主办方?有接近创新工场方面的人士向新浪科技分析称,首先CMU是李开复的母校,也是CMU在中国最为知名的代表;其次创新工场主办此事,可能还与其目前在人工智能领域的布局有关,去年年底,创新工场正式成立了创新工场人工智能工程院,并且希望进一步提升知名度揽获更多的AI人才;值得一提的是,李开复是创投圈内知名的德扑选手,之前先后发起并参与了首届投资界扑克赛和中国创投名人赛,甚至还吸引了娱乐明星汪峰等参加。
此外,新浪科技还获悉,在此次人机扑克大赛期间,Libratus开发者卡内基 (CMU) 学教授也将同步来华进行交流。
有趣的是,在新浪科技获悉的资料上,表演赛选手名单中包括李开复、沈南鹏、倪正东、吴世春、王小川、许朝军等科技创投人士,也有许家印、朱晔等企业家,还包括王思聪、汪峰、和华少等娱乐圈焦点人物。
然而截至发稿前,创新工场方面并未对此发表回应和说明。