教会自己虚张声势的计算机

教会自己虚张声势的计算机

熟能生巧,即使你恰好是一个人工智能。

这是阿尔伯塔大学的 Michael Bowling 领导的一项实验的前提,该实验设置了一个名为 Cepheus 的程序,让它与自己玩一亿亿(是的,一亿亿亿)手扑克变体游戏,即单挑限注德州扑克。Cepheus 在 4,600 个 CPU 上运行,每秒计算 60 亿手牌,从每次胜利、平分底池和失败中学习。在实际 70 天中,相当于 CPU 1,000 年的时间后,Cepheus 玩的扑克牌比整个人类玩的还要多。在发表在《科学》杂志上的一篇论文中,Bowling 团队宣布,他们利用 Cepheus 有效地“解决”了单挑限注德州扑克 - 这意味着该程序的决策非常接近完美,以至于没有办法看看一个理论上完美的人类在 70 年的时间里,每天 12 小时,每小时玩 200 手牌是否能做得更好。

统计学家对“解决”游戏的定义有些晦涩难懂,因为 Cepheus 实际上并非每局都不可战胜——恰恰是因为游戏中存在不可消除的运气因素。如果拿到一手烂牌,狡猾的职业选手可能会输给业余选手。

该程序的决策如此接近完美,以至于无法看出理论上完美的人类是否能做得更好。

“最糟糕的情况可能是你手上有一手好牌,而你的对手手上有一手更好的牌,”这项研究的合著者迈克·约翰逊说。“你认为自己会赢,所以你下了很多赌注,结果输了很多钱。”

但一旦统计噪声的影响在数千手牌中消失,Cepheus 的技能保证它不会在长期内亏损。

“第一步是建立一个能够击败人类专家的程序,我们在 2008 年就做到了,”约翰逊说。“我们在论文中宣布,Cepheus 能够完美地下棋,不会犯错误。”

在研究中使用的德州扑克版本中,两名玩家(“单挑”)使用固定(“限制”)赌注大小进行比赛,并且有两张牌是隐藏的。这里真正新颖的是 Cepheus 必须学会在对手持有的牌有如此“不完全信息”的情况下做出决定。尽管计算机科学家之前已经解决了 Connect Four 或 Checkers 等“完全信息”游戏,其中计算机完全了解之前的走法和可能的未来结果,但艾伯塔省的研究是人类玩的不平凡的不完全信息游戏的第一个解决方案。

“而 Cepheus 必须学会如何在没有人类专家帮助的情况下下棋,”Johanson 说。“我们教它规则,然后它自己进行训练,弄清楚如何慢棋和虚张声势等棘手的心理问题。”

虚张声势是指玩家手中的牌很弱,但为了欺骗对手弃牌而积极下注。慢玩则相反;手中的牌很强,玩家希望谨慎下注,以诱使对手留在游戏中进行更多下注。而关于其他玩家手中牌的“不完全信息”传统上使得这些心理战术很难被计算机处理。直到现在。还有那数以亿计的德州扑克牌。可以肯定地说,Cepheus 已经见识过扑克玩家可能尝试使用的所有技巧。

您可以在线与 Cepheus 对战,或者向它询问策略问题。

尽管扑克牌生意很大,但计算机科学家更感兴趣的是将其作为基准。约翰逊预计,其他领域的博弈论者也会将这种方法应用于不完全信息占主导地位的其他领域,如谈判或反恐。

例如,南加州大学教授米林德·坦贝 (Milind Tambe) 开发了一种名为 ARMOR 的博弈论工具,洛杉矶国际机场和联邦空中警察均使用该工具来安排巡逻和检查站,这种方式既结合了随机性,又权衡了潜在威胁。

机场安检可以理解为一场像象棋一样的策略游戏。

对于约翰逊来说,机场安检可以理解为一场像象棋一样的策略游戏。

“可以把它想象成国际象棋,只不过军队规模不同。机场有多个棋子,代表安保人员,也可能是炸弹嗅探犬和检查站。也许恐怖分子只有一个棋子,但它是一枚好棋子,就像皇后一样,可以自由移动并攻击机场最薄弱的地方。”

就像单挑限注德州扑克一样,机场安检中的双方对于对手将采取什么行动都没有完全的信息。

“所以你把板子藏起来了,”约翰逊说。“你不知道恐怖分子什么时候会袭击,但你知道袭击很可能会发生。恐怖分子知道那里有安保,但不知道具体在哪里。”

将洛杉矶国际机场这样复杂、庞大的机场重新设想为棋盘说起来容易做起来难。但我们希望,就像仙王座通过数万亿轮练习学会了虚张声势和慢打法一样,明天重复的人工智能安全模拟将发现我们凡人从未想过的漏洞。

<<:  他们现在在哪里:回顾 2014 年 CES 上的顶级潜力股

>>:  巨石能阻止超速行驶的卡车吗?一项有力的新研究调查了

推荐阅读

最省力的护肤程序仍能让你肌肤焕发光彩

护肤可以是日常卫生的简单而必不可少的部分,也可以是让您感觉愉悦的深度个人放松仪式。但是,随着如此多的...

《千岁月中》第一季的魅力与评价:萌系动漫世界的新视角

对“千岁月中!!”的综合评价与推荐第 1 季概述“千岁月中!!”是真岛悦也创作、竹书房出版的漫画系列...

这款化石分类机器人可以为气候研究人员识别数百万年前的生物

微小的海洋化石被称为有孔虫,或称有孔虫,它们在各个时代都为科学家研究全球气候提供了重要指导。它们存在...

如何打造一套强大到让你惊叹的汽车音响系统

繁荣的殿堂。山姆·卡普兰如果你给汽车音响播放一段低音效果足够强的曲子,那么它真的会让你的头发向后飘。...

野生倭黑猩猩表现出群体间令人惊讶的合作迹象

人类不同群体之间的合作是我们社会规范、传统和文化的根源。根据 11 月 16 日发表在《科学》杂志上...

KIDDY GRADE -MAELSTROM-洪水版:深度分析和推荐

《KIDDY GRADE -MAELSTROM- 犯乱篇》的魅力与深度:彻底解析剧场版第二部《KID...

如何在家中干燥草药(以及为什么要这样做)

数千年来,草药一直用于食品制备和药用。古代草药爱好者如何保存草药?他们将草药晒干。干燥是保存大多数草...

本周我们了解到的最奇怪的事情:恶劣的天气、维多利亚时代的食人行为和女性高潮(由 12 世纪的修女讲述)

本周你学到的最奇怪的事情是什么?好吧,不管是什么,我们保证如果你听 PopSci 的最新播客,你会得...

“肯塔基肉雨”期间到底发生了什么?

本周你学到的最奇怪的事情是什么?好吧,不管是什么,我们保证如果你听 PopSci 的热门播客,你会得...

对 Spelunker Sensei Flash 动画 DVD 进行全面评论!有多值得推荐?

Spelunker Sensei - Flash Animation DVD 的全面评论与推荐概述...

闪电十一人外传第4部的魅力与评价

闪电十一人外传:第 4 季的魅力与评价《闪电十一人外传》是一部改编自 Level-5 创作的热门游戏...

加拿大为何能赢得无人机竞赛?

在即将上映的电影《时光尽头的恋人》中,由布莱克·莱弗利和哈里森·福特主演,其中有一个镜头,一架无人机...

蒙大拿州一座小镇 24 小时内气温创纪录飙升 103 度

在美国许多地方,夏日午后变成零下温度的夜晚并不罕见。但没有哪个地方的 24 小时气温变化比蒙大拿州洛...

《你好,Harinezumi,第 170 号文件:杀人领域》评论:令人震惊的发展和不断加深的谜团

“你好,Harinezumi,档案 170:杀人领域”——深度心理战和错综复杂的故事情节《Hello...

《Bibi & Birdie》儿童版的魅力与评价:儿童动画的新标准

《Bibi and Birdie [儿童版]》的魅力与评价1994年以OVA形式发售的《比比与小鸟[...