Meta 的新 AI 可以利用欺骗来征服棋盘游戏世界

Meta 的新 AI 可以利用欺骗来征服棋盘游戏世界

计算机在越来越多的街机和棋盘游戏中表现得相当出色,包括国际象棋、围棋、乒乓球和吃豆人。在不久的将来,机器甚至可能改变视频游戏的开发方式。现在,在构建了一个在扑克游戏中胜过人类的人工智能机器人后,Meta AI 的科学家创建了一个能够进行更复杂游戏的程序:它可以制定策略,理解其他玩家的意图,并通过聊天信息与他们沟通或协商计划。

这个机器人名叫 CICERO,它在外交游戏中的表现比许多人类玩家都要好。CICERO 的得分比人类对手的平均得分高出一倍多,在 40 场在线联赛中名列前 10%。

该项目是 Meta 工程师与哥伦比亚大学、麻省理工学院、斯坦福大学、卡内基梅隆大学、加州大学伯克利分校和哈佛大学的研究人员在过去三年中共​​同开发的。 《科学》杂志今天发表了一篇论文,介绍了 CICERO 的诞生过程。该团队正在开放代码和模型的源代码,并将向其他研究人员开放项目中使用的数据。

《外交》原本是一款以欧洲为背景的棋盘游戏,玩家扮演不同国家的角色,通过制定战略协议和行动计划来夺取领土控制权。

Meta AI 的研究科学家、论文作者诺姆·布朗 (Noam Brown) 表示:“外交的独特之处在于它涉及合作、涉及信任,最重要的是,它涉及与其他参与者的自然语言交流和谈判。”

尽管多年来一直使用没有聊天功能的特殊版本游戏来测试人工智能,但从 2019 年开始语言模型的进步让团队意识到可能可以教会人工智能如何完整地玩外交游戏。

但由于《外交》对合作有着独特的要求,“很多之前游戏使用过的技术现在都不再适用了”,布朗解释道。

此前,该团队曾对无语言版本的游戏进行过实验,在实验中,玩家会被告知每场游戏中会有一个机器人和六个人类。“我们发现,玩家会积极地试图找出机器人是谁,然后淘汰该玩家,”布朗说。“幸运的是,我们的机器人在那种环境下能够像人类一样通过;他们实际上很难找出机器人是谁,所以机器人实际上在联赛中获得了第一名。”

但随着《外交》游戏的全面推出,团队意识到如果涉及自然语言询问,机器人还无法通过图灵测试。因此,在实验期间,玩家并不知道他们正在与机器人一起玩——这一细节直到游戏结束后才透露。

制作 CICERO

为了构建外交游戏 AI,该团队构建了两个相互关联的独立数据处理引擎:一个引擎用于对话(灵感来自 GPT-3、BlenderBot 3、LaMDA 和 OPT-175B 等模型),另一个引擎用于战略推理(灵感来自 AlphaGo 和 Pluribus 等先前的研究)。对话模型经过互联网上大量文本数据和 webDiplomacy.net 上的 50,000 场人类游戏的训练,两者结合起来,可以传达与其计划的行动方针相符的意图。

元人工智能

反过来也一样。当其他玩家与机器人交流时,对话引擎可以将其转化为游戏中的计划和行动,并以此通知战略引擎下一步行动。CICERO 的宏伟计划由战略推理引擎制定,该引擎根据棋盘状态、最近对话的内容、玩家在类似情况下的历史动作以及机器人的目标来估计最佳下一步行动。

[相关:麻省理工学院的科学家教机器人如何互相破坏]

“如今的语言模型确实很棒,但它们肯定有缺点。我们从语言模型中卸载的策略越多,我们就能做得越好,”布朗说。“因此,我们有了这个以计划为条件的对话模型,但对话模型并不负责计划。”因此,程序中负责说话的部分与负责规划的部分是不一样的。

机器人使用的规划算法称为 piKL。它会对每个人可能做什么以及每个人认为机器人会做什么做出初步预测,并通过权衡不同动作的价值来完善这一预测。“在进行这个迭代过程时,它会尝试根据我们拥有的数据集来权衡人们过去做过的事情,”布朗说。“它还试图平衡这一点,因为玩家在游戏中有特定的目标,他们试图最大化他们的分数,他们不会像犯小错误那样犯非常严重的错误。我们实际上已经观察到,这比仅仅根据人类数据进行初步预测要好得多。”

元人工智能

“欺骗存在于各个层面”

考虑一下欺骗的概念,这是外交的一个有趣方面。在游戏中,在每一轮之前,玩家将花 5 到 15 分钟互相交谈并协商计划。但由于这一切都是私下进行的,人们可以进行双重交易。他们可以向一个人做出承诺,并告诉另一个人他们会做其他事情。

但仅仅因为人们可以偷偷摸摸地行事并不意味着这就是比赛的最佳方式。“很多人刚开始玩外交游戏时,都认为这是一个欺骗游戏。但实际上,如果你和经验丰富的外交玩家交谈,他们会以非常不同的方式思考游戏,他们说这是一个关于信任的游戏,”布朗说。“它能够在一个鼓励你不信任任何人的环境中与其他玩家建立信任。外交不是一款你可以独自取得成功的游戏。你真的需要有盟友。”

早期版本的机器人更具欺骗性,但最终表现相当糟糕。研究人员随后添加过滤器,使其撒谎更少,从而提高性能。但当然,CICERO 并不总是完全诚实地表达其所有意图。重要的是,它知道其他玩家也可能撒谎。“欺骗存在于一个范围内,我们正在过滤掉最极端的欺骗形式,因为这没有帮助,”布朗说。“但在某些情况下,机器人会策略性地省略信息。”

例如,如果它计划攻击某人,它会在通讯中省略其攻击计划的部分内容。如果它与盟友合作,它可能只会传达需要知道的细节,因为过多地暴露其目标可能会让它容易受到背叛。

“我们考虑到玩家的行为不像机器,他们可能会表现得不理性,也可能表现得不太理想。如果你想让人工智能在现实世界中行动,就必须让它们明白人类的行为方式应该像人类,而不是像机器人,”布朗说。“拥有一个能够从其他角度看待事物并理解他们观点的代理是人机交互中一项非常重要的技能。”

布朗指出,该机器人所依赖的技术“非常通用”,他可以想象其他工程师将在这项研究的基础上开发出更实用的个人助理和聊天机器人。

<<:  主要的税务申报网站经常与 Facebook 分享用户的财务信息

>>:  这只敏捷的机器狗用摄像机代替感官

推荐阅读

幽灵森林正在大西洋海岸涌现

在北极,冰川迅速融化是气候变化最明显的迹象。在纬度较低的地区,则是春天来得越来越早,恶劣天气出现的频...

独家视频:克里斯·哈德菲尔德描述太空行走期间失明的经历

太空是一个广阔而可怕的地方,人类只涉足了其中很小的一部分。大多数载人航天任务都进展顺利,但偶尔,宇航...

澳航新飞机将为 19 小时航班设立“健康区”

2019 年最后三个月,也就是疫情对全球航空旅行产生影响之前,澳航曾执行了三次超长“研究飞行”任务...

索尼推出首款带网络浏览器的数码相机

乍一听,这似乎有点怪异。我真的想用相机上网吗?当然不想。但添加网络浏览器后,索尼新款 G3 的功能远...

4000年前,陶瓷管道保护了这个小镇免受季风期间的洪水侵袭

中国的龙山时期约持续公元前 2600 年至公元前 2000 年,以其精致的陶器造型而闻名,但其精致的...

如何避免那些恼人的短信拼写错误

回头查看短信历史记录,你会看到一系列错误,让你的短信看起来像勒索信。拼写错误的单词、随机空格和搞笑的...

今年夏天安全地与濒危海龟共享海滩

在南佛罗里达海滩,夜幕笼罩之下,我蹲在距离一只红海龟约 20 英尺的地方等待。我默默地看着,头灯发出...

人工智能抄袭检测器错误地标记了非英语母语人士

随着生成式人工智能程序的迅速普及,许多教育工作者对学生滥用系统代写书面作业表示担忧。不久之后,多种数...

哆啦美的蓝草帽:第15部剧场版的魅力与评价

哆啦 A 梦:蓝草帽 - 电影的魅力和详细说明1994年3月12日上映的《多啦美:蓝草帽》是根据藤子...

东部郊狼越来越常见——以下是关于它们的 5 个事实

这个故事最初刊登在《户外生活》上。它们有很多名字:郊狼、歌唱狗、歌唱犬、骗子、丛林狼、花呢狼……大多...

《云库小姐纯情派》评论:一个令人惊讶的迷人而动人的故事

云雾山润泽下全方位评价与推荐 - 云雾山润泽下■ 公共媒体电视动画系列■ 原创媒体特点■ 播出时间2...

如何阻止网站跟踪你

从将笔记本电脑或手机连接到互联网的那一刻起,你就必须接受有人在跟踪你的事实。如果这让你感到不安,你应...

戴森吸尘器 40% 折扣,今日还有其它超值优惠

如需了解更多交易和产品信息,请查看我们的专属 Facebook 群组。...

如何减少浇水量,同时又能让植物保持健康

植物利用阳光、二氧化碳和水产生能量,而我们的室内植物实际上只需要我们积极地给予其中一种能量。不过,我...

无人机周:婚礼摄影师、狱警等等

以下是本周无人机热门新闻汇总,旨在捕捉无人机的军事、商业、非营利和娱乐应用。婚礼调查6 月,纽约州众...