人工智能|一度输得只剩内裤的机器人,为何能反转战胜美国顶尖牌局玩家?
本文图片
【人工智能|一度输得只剩内裤的机器人,为何能反转战胜美国顶尖牌局玩家?】卡内基梅隆大学的计算机科学家托马斯·桑多姆(Tuomas Sandholm)既不玩牌 , 也不怎么看人打牌 。 他对扑克牌着迷的原因和博弈论大师冯·诺依曼的很相似 。 冯·诺依曼于1957年去世 , 他把扑克视为研究人类决策的理想模型 , 用以寻找那种伴随我们一切抉择的 , 技术与运气间的平衡 。 他把扑克看作终极策略考验 , 其中既包含了象棋等游戏中的数学元素 , 也融合了那些难以建模的 , 人类独有的心理因素 。 多年以后 , 桑多姆在他的人工智能研究中 , 也持有同样的见解 。
“扑克牌是测试不完全信息博弈的主要基准项目 。 ”2018年春天一个温暖的午后 , 桑多姆在匹兹堡的办公室与我会面时这样说道 。 原来扑克牌已经成为了人工智能开发中的试金石 。
桑多姆又高又瘦 , 戴着金属边眼镜 , 整齐的头发衬着一张和善的脸 。 他主持研发了三个能与人类扑克牌选手较量的电脑程序:Claudico , Libratus和最新的 Pluribus(我们见面时Libratus还处于蹒跚学步的阶段 , 而Pluribus尚未出世) 。 研究的目的并不是破解扑克牌的玩法 , 而是要创造出能够应对扑克博弈中不完整的信息 , 以及那些随机、不可预知的局面的算法 。 进而将他们的决策能力应用于其他随机领域 , 比如军事、金融、政治、信息安全 , 甚至医疗健康 。
本文图片
- Freepik -
尽管第一个程序Claudico很快就被人类玩家击败了——一位旁观者将程序称为“输得只剩内裤的机器人” 。 Libratus却在一系列双人对局中战胜了美国顶尖的线上玩家 。
Libratus得益于三个主要模块 。 第一个模块里包含整个游戏的基本战术纲领 , 使它能比上一代程序更快地到达纳什均衡 。 其中使用了一种叫做蒙特卡罗反事实遗憾最小化(Monte Carlo Counterfactual Regret Minimization)的算法 , 这种算法对所有可能的行动进行评估 , 从而找出带来最少遗憾的一种 。 遗憾是人类天生的情感 。 对电脑而言 , 遗憾仅仅意味着知道某个未被选择的行动本应比实际采取的行动带来更好的结果 。 “直观地说 , 遗憾代表了人工智能因为过去没有做出某一选择而后悔的程度 。 ”桑多姆说 。 遗憾值越高 , 下一次选择这一行动的几率也就越大 。
这是一种实用的思维方式——但人类的心灵很难将其付诸实践 。 我们预测情绪的能力是出了名的低下 。 我们会对一件事感到多么后悔?我们会对没做某件事感到多么后悔?对我们而言 , 这种计算背负着情绪的重量 , 使我们往往无法正确地求解 。 对电脑而言 , 这一切无非是数值的运算 。 它最后悔没做的事 , 不正是本该产生最佳预期收益的那一件吗?
第二个模块是子游戏解析器 。 它把对手过去犯下的失误纳入考量 , 并且顾及每一种可能的手牌组合 。 最后一个模块是自我改良器——这就是大数据和机器学习能派上用场的地方了 。 试图利用对手的弱点是危险的——这会将你的弱点暴露给对方 , 使你反被利用 。 当电脑程序与人类对手博弈时 , 人类更精通于此 。 所以自我改良器并不尝试这样做 , 而是让对手的行动告诉程序该把关注点放在哪里 。 “让对手用行动告诉我们 , (他们)认为我们战术的破绽在哪儿 。 ”桑多姆解释道 。 这能帮助算法构建一个整体战术 , 以填补那些漏洞 。
这其实是一种颇具人性的调整方式 。 我不会一上来就想着占你便宜 , 而是要看看你想怎么占我便宜 , 然后再随机应变 。 孙子一定会赞同这个做法 。 要关注别人怎样看你 , 而不是你怎样看待自己 。 毕竟你的对手们才是观察者 , 而他们的观点 , 不论正确与否 , 才是你在安排战术时唯一需要考虑的那个 。 一夜之间 , 算法就能根据分析的结果 , 将整体战术修补完善 。
本文图片
- Jacopo Rosati -
Libratus还能做到最后一件事:在概率不明的情形下进行博弈 。 博弈论里有一个概念叫做“颤抖的手(trembling hand)”:在最优策略下 , 游戏树里有一些分支是理论上永远无法到达的 。 然而身为凡人 , 你的对手有一定的几率会手抖 , 他们犯了个错误 , 结果你一下子就身处一种全然陌生的境地 。 以前 , 这会给电脑带来严重的麻烦 , 因为在游戏树中尚未涉足的区域里 , 程序不知道该如何应对 。 但如今 , 我们有了对策 。
当然 , 完美的算法并不存在 。 Libratus打扑克时 , 本质上是在一个零和环境下工作 。 它赢了 , 对手就输了 。 对手赢了 , 他就输了 。 尽管现实生活中确实有一些零和的往来——我想到的是信息战——其余诸多情形并没那么直截了当:我赢了 , 不见得你就输了 , 我们不是在争夺固定总量的奖励 , 这种交互或许更接近正和(positive-sum)博弈 。
本文图片
- Ma té Franchi -
此外 , 在现实生活中我们还需面对扑克牌游戏中不涉及的问题:决策中的不同因素的权重 。 在扑克比赛里 , 这无非就是一个利益最大化的问题 。 但在人类世界中 , “利益”指的是什么呢?桑多姆协助策划世界第一次肝肾交换移植时 , 就曾面临过这一问题 。 你是想追求效率 , 以最快的速度交换最多的器官呢?还是想追求公平 , 却因此降低效率呢?你是想尽可能救助更多人——还是说有什么比数量本身更重要吗?等待肾脏时间长的患者应该优先吗?孩子们应该优先吗?诸如此类 。 桑多姆说 , 把目的和手段区分开至关重要 。 在寻找手段之前 , 人必须明确自己的目的是什么 。
“在Libratus这样的算法的帮助下 , 世界最终会变得更加安全 , ”桑多姆告诉我 。 我不太明白他的意思 。 扑克竞技中通过输赢使得自己的利益最大化——我想大多数人不会把这称作是避风港 。
“逻辑是个好东西 。 而且人工智能分析战术的能力将一直遥遥领先于人类 , ”他解释道 。 “它排除了非理性 , 不受情感左右 。 它也更加公正 。 假如你拥有人工智能 , 它可以使非专业人士站到行家的高度 。 资历尚浅的谈判者将立刻得到更好的武器 。 我们可以开始缩减数位落差 。 ”
我们的讨论在这样一个乐观的展望中结束——从一个竞争激烈的零和游戏中 , 最终产生出一个更加公平、理性的世界 。
本文图片
- Fabian Hung -
我还想了解更多 , 想看看数学和算法能否真的能创造更具人性、更注重心理活动的交互方式 。 因此当天晚些时候 , 我去了匹兹堡超级计算中心 , 在首席科学家尼克·尼斯特罗姆(Nick Nystrom)的陪同下 , 参观了支撑着Libratus等项目的处理中心 。 超级计算中心就是运行着桑多姆所有智能打牌程序的地方 。
经过半小时的车程 , 我们到了一个大型玻璃建筑旁的停车场 。 我原本期待看到更具未来感的建筑 , 而不是千篇一律的玻璃盒房子 。 建筑内部 , 却挺像那么回事儿 。 先是要过安检 , 然后再坐电梯 , 电梯往下(而不是往上)走了差不多三层 。 我们进入了一个迷宫走廊 , 这里的每一个节点都设有读卡器 , 以防有人偷偷溜进来 。 最后一道屏障是亮着红光的挡板 , 后面是挤在两扇门间的狭小空间 。 我能听见对面传来的轰鸣声 。
“进去之前我先告诉你里面都有些什么 , ”尼斯特罗姆对我说 , “我们一进去 , 就什么也听不到了 。 ”
我即将目睹的 , 是这座超级计算中心的心脏 。 27个大型容器整齐地排列 , 每一个都装有许多处理器 , 其运算能力和速度超出我的理解范畴 。 房间里的温度 , 如同严冬与酷暑的更替——所谓的“冷”行与“热”行交替排布——计时器旁边有风扇运转 , 在处理器横扫千百万兆数据时为它们降温 。 在冷行里 , 机器人似的指示灯规律地闪烁着蓝绿二色的光 。 在热行里 , 一团五颜六色的导线纠缠成捆 。
角落里伫立着那些已经辉煌不再的机器 。 这里有让我心中涌起暖流的夏洛克 , 一台老式的克雷计算机 。 还有一台没有名字的可怜计算机 , 它外壳上安迪·沃霍尔(Andy Warhol)的汤罐头装饰稍许弥补了无名的悲哀(这是为了向匹兹堡出身的沃霍尔致敬) 。
本文图片
- Tomasz Czajka -
那么Libratus住在哪里呢?我问道 。 哪一台计算机才是Bridges , 运行着我和桑多姆讨论过的那些程序的机器呢?
原来 , Bridges并不是一台独立的计算机 。 它是一个有着不可思议的处理能力的系统 。 运行Libratus需要使用2.5 PB的存储空间 。 1 PB相当于100万 GB(十亿字节):这足够让你看十三年的高清视频 , 存一百亿张照片 , 逐字收录美国国会图书馆的全部书籍 。 这是相当庞大的运算能力 。 而这也仅仅是为了在有限的情况下 , 在双人扑克牌游戏中取得胜利 。
尽管坐拥着令人屏息的强大运算力 , Libratus的实力仍然颇为有限 。 它的确战胜了击败Claudico的对手 , 但是职业扑克选手在许多专业工具的使用上受到了限制 , 比如他们在实际线上对局中使用的对手分析软件就没能在与机器对战时使用 。 并且 , 人类会疲惫 。 Libratus可以马不停蹄地运转两周 , 而人类的头脑早就罢工了 。
但还有许多它做不到的事情:多人对局 , 在线对局 , 或者赢下每一局 。 扑克牌中有更多人性的东西是Libratus尚未征服的 。 “有一种观点认为这一切仅仅关乎统计学和相关性 , 可我们不敢苟同 , ”在我们告别Bridges时 , 尼斯特罗姆解释道 , “相关性有时是好的 , 但整体来说 , 它们是极具误导性的 。 ”
两年之后 , 桑多姆的实验室将创造出Pluribus 。 Pluribus可以与五名玩家对局——而且只在一台计算机上运行 。 人类的大多数优势 , 在很短的时间内就将不复存在 。 算法已经进步了 , 计算机也如此 。 人工智能 , 似乎正在飞跃成长 。
这是否意味算法确实终将战胜人类 , 通过计算解开繁杂的人际关系 , 就像冯·诺依曼(John Von Neumann)所说的那样 , 去辨别“骗人的小伎俩 , 问问自己别人会如何理解我的意图”呢?
早在我与桑多姆对话之前 , 我遇到了凯文·斯莱文(Kevin Slavin) , 一个全才式的人物 。 他曾经创立了一个游戏设计公司 , 一个互动式艺术空间 , 还在麻省理工的传媒实验室成立了娱乐系统小组 。 斯莱文的观点和Pluribus的开发者们从根本上不一致 。 “一方面来说 , 他(冯·诺依曼)是个天才 , ”凯文·斯莱文思索道 , “但也很自以为是 。 ”
斯莱文坚定地和赌徒们站在一边 , 他们能看清不确定性的本质 , 所以能在必要时承担可预估的风险 , 同时还能操纵玩家对结果的信心 。 你所能做的最多也就是随缘——真正的扑克玩家并不指望自己能猜中结果 , 他们认为这种自信只是自大的表现 。 对斯莱文而言 , 计算机真正的神奇之处在于 , “它们能生成奇妙的 , 复杂的随机现象 。 ”那么他对于用算法破解概率的观点呢?“这是让他们大显身手的机会 , ”他说 。 “但这与计算机真正的美妙之处刚好对立:它们可以做出无法被预测的行动 。 对我来说 , 这才是魔法 。 ”
可是 , 它们真的能够成功预测不可预测之事吗?那才是我想知道的 。 因为我所见到的一切都在告诉我 , 绝对的成功不可能实现 。 没人能看穿牌局 。
“想走到这一步 , 需要经历千辛万苦 。 但你最终能获得什么呢?假如他们真的成功了 , 我们将生活在一个没有上帝 , 没有自我意志 , 也没有运气的世界里 。 ”斯莱文回答道 。
“我可不想住在这样的地方 , ”他又说道 , “我真的不想住在这种地方 。 ”
好在就目前看来 , 我们还用不着担心这个 。 生活里有许多东西还没被写成算法 。 我们还没有可靠的测谎软件——不论是针对面部、皮肤 , 还是大脑的 。 在最近一次玩牌中诈唬战术的检测中 , 电脑错的一塌糊涂 。 我们可以检测到异常 , 但我们检测不出这种异常的根源——撒谎、疲惫 , 紧张 , 它们表现得都差不多 。 当然 , 人类还能表现出并不存在的紧张情绪 , 让情况更加复杂 。
Pluribus也许很强大 , 然而冯·诺依曼的挑战仍在眼前:游戏的本质 , 人性最深处的东西 , 还未能被征服 。
作者:Maria Konnikova |封面:Almasty
译者:焉哉乎也 |审校:王波小
排版:光影
原文:
https://undark.org/2020/07/17/the-deck-is-not-rigged-poker-and-the-limits-of-ai/
本文图片
本文图片
本文图片
推荐阅读
- 人工智能|人工智能系统一秒内算出震源机制参数
- 人工智能|科学家利用人工智能改进假肢:可实现“自主行走”
- 人工智能|中国人工智能,赏花更要寻根
- 人工智能|科技领域未来五年的热门,高考志愿要往这些方向报么?
- 人工智能|可与“狗鼻子”媲美的AI癌症检测系统问世,或装在你的手机中
- 人工智能|一家图灵奖得主背书创企的陨落,暴露了AI弱国“恒弱”的困境?
- 人工智能|脑洞大开!科学家让人工智能跟狗学癌症检测
- 人工智能|AI窥人(三):你想靠AI实现永生吗?
- 人工智能|北京人工智能发展报告发布,AI企业数量等17项成绩全国居首
- 人工智能|报告:北京人工智能发展拥有17个全国第一
