像淑女一样撒谎:图灵测试的深奥而又性别特定的根源

像淑女一样撒谎:图灵测试的深奥而又性别特定的根源

到现在为止,你可能已经听说了图灵测试,这是由数学先驱艾伦·图灵于 1950 年提出的一项古老的机器智能测试,现已通过。在上周末举行的一场比赛中,一个伪装成 13 岁乌克兰男孩的聊天机器人欺骗了三分之一的人类评委,让他们以为它是人类。这促使组织比赛的雷丁大学宣布取得了“人工智能的历史性里程碑”。

你可能还听说过,这完全是一场骗局,在学术上相当于直接在图灵的坟墓上撒尿。图灵设想了一个基准,可以回答“机器能否思考”这个问题,并给出肯定的答案,展示出某种程度的类人认知能力。然而,开发出获胜程序“Eugene Goostman”的研究人员却玩弄了彻头彻尾的诡计。和之前的每个聊天机器人一样,Eugene 回避问题,而不是处理内容并返回真正相关的答案。而且它使用的可能是最卑鄙的伎俩。在两部分的欺骗中,Eugene 蹩脚的英语可以用不是母语人士来解释,而它的愚蠢可以用它是个孩子(无意冒犯,13 岁的孩子)来解释。研究人员没有通过图灵测试,而是玩弄了它。他们并不是第一个——有人认为 Cleverbot 在 2011 年就通过了——但到目前为止,他们是最著名的。

但你可能没有听说过,阿兰·图灵最初提出的测试有多么离奇。与恐怖谷理论一样,图灵测试是一个想法的种子,后来被扭曲并重新解释为科学经典。雷丁大学声称其滑稽的宣传噱头是人工智能研究的一个突破性里程碑,这理应受到嘲笑。但它亵渎的测试也值得仔细审查。

印第安纳大学人机交互副教授卡尔·麦克多曼说:“图灵从未提出过让计算机假装成人类的测试。图灵提出了一个模仿游戏,让男人和计算机比赛假装成女人。在这场比赛中,计算机假装成一个 13 岁的男孩,而不是女人,而且它是在与自己竞争,而不是与男人竞争。”

MacDorman 的分析并非吹毛求疵。它就出现在图灵 1950 年发表于《心灵》杂志的里程碑式论文《计算机与智能》的第二段中。他首先描述了这样一种场景:一名男子和一名女子都试图说服远程、看不见的询问者他们是女性,使用打字回复或通过中间人说话。然而,真正的行动发生在男子被机器取代的时候。图灵问道:“当游戏以这种方式进行时,询问者做出错误决定的次数会不会像游戏在男人和女人之间进行时一样多?”

《模仿游戏》要求计算机不仅模仿有思想的人类,还要模仿特定性别的人类。它避开了创造类人机器智能的巨大障碍,并直接陷入了数学家的噩梦——性别认同这一无边无际、无法量化的泥潭。

想象中的机器需要了解它假装来自的国家的特定社会习俗和刻板印象。它还必须决定它的虚假自我何时诞生。毕竟,那是 1950 年,距离英国女性获得普选权仅过去 22 年。妇女选举权运动的余波仍在继续。那么,机器应该如何假装对这个问题有感而发,无论是作为一定年龄的女性,还是作为在文化重塑之战胜利后出生的学生?

计算机能否实现这一目标似乎非常有趣,而且似乎是人工智能之谜被解决很久之后某个遥远时代的一个绝佳研究问题。但模仿游戏是在数字时代初期提出的一项练习,当时“计算机”一词很容易让人联想到一位为盟军作战计算数字的女性,就像一台能够谈论头发的机器一样。

头发是图灵的例子,不是我的。稍后会详细介绍。

现在你可能想知道为什么我没有转到图灵测试,这肯定是图灵在后来的出版物中提出的模仿游戏的某种澄清、修订版本。但愿如此。图灵于 1954 年去世时,并没有从他的开创性思想实验中去除性别。图灵测试是集体学术善举,以图灵的名字命名,是在图灵去世后才颁发的。随着图灵测试的普及,它被赋予了新的意义和重要性,成为未来人工智能的评判标准。当计算机欺骗人类询问者时,这将是机器感知的第一次真正展现。根据你对科幻小说的了解,这将是庆祝或战争的理由。

在这方面,图灵测试与恐怖谷理论有相似之处,恐怖谷理论也是基于一篇非常古老的论文的假设,该论文也没有提供任何实验结果,并且还猜测了几十年内不可能实现的技术的具体方面。在这篇 1970 年的论文中,机器人专家 Masahiro Mori 想象了一条曲线,随着机器人看起来越来越像人类,对机器人的积极情绪会稳步上升,然后突然下降。在提出的人类模仿水平下,受试者会感到不安,甚至恐惧。最后,当达到某种潜在的完美人类模仿能力时,图表的谷底就会形成,我们不仅喜欢机器人,而且爱它们!

我使用过多的斜体字是为了强调这样一个事实:在 1970 年,恐怖谷理论并不基于与真实机器人的互动。这是一个思想实验。现在它仍然是一个思想实验,很大程度上,因为我们还没有制造出完美的冒名顶替者,相关的学术实验不是依靠机器人,而是依靠静态图像和计算机生成的化身。此外,森喜朗本人从未费心去验证自己的理论,在他渴望地构想出这个理论的 44 年里。(如果这听起来过于苛刻,请阅读由卡尔·麦克多曼共同翻译的论文。它短小而华丽,令人震惊。)相反,他最终写了一本关于机器人如何天生就是佛教徒的书。(再次强调,不要相信我的话。)

然而,尽管 Mori 的论文站不住脚、缺乏证据,而且面对面的机器人互动产生了各种各样的结果,过于复杂,无法用任何一条曲线来概括,但恐怖谷理论仍然被许多人视为事实。为什么不应该这样呢?这听起来合乎逻辑。就像图灵测试一样,它的逻辑和影响都充满诗意,其中涉及到机器人。但无论你如何看待《极地特快》中那些眼神呆滞的卡通画,恐怖谷理论对机器人领域都没有任何价值。它只是垃圾食品科学。

图灵测试也是一个过于简单、经常被错误使用的概念。它最大的遗产是聊天机器人,以及试图美化这些可恶事物的竞赛——通常都以失败告终。但恐怖谷和图灵测试的不同之处在于它们的愿景。正如我们所理解的,以及上周末的活动所证明的,图灵测试是一个空洞的衡量标准。然而,图灵仍然是一个有远见的人。在他奇怪、草率、似乎过度的模仿游戏中,他对人类和人工智能的本质提供了精彩的见解。

谈论你的头发比听起来更聪明。

* * *

图灵在模仿游戏里提出的第一个样题是:“X 能告诉我他或她的头发长度吗?”而一个人类男性的假想答案是:“我的头发是瓦状的,最长的一缕头发大约有九英寸长。”

想想这个回答中发生了什么。主体正在想象(大概)别人的头发,或者从头开始构思一个视觉形象。他还提到了一种特定的发型,而不是简单地描述说后面的头发比较短。

如果机器能够给出类似的答案,那么可能意味着两件事之一。

它的程序员非常擅长编写脚本响应,当它检测到“头发”这个词时,它很幸运。在聊天机器人出现之前,不那么愤世嫉俗的可能性是,计算机能够访问图像,并描述其物理特征及其文化背景。

让性别成为机器智能测试的核心部分仍然让我感到不安,而且这似乎是现代研究人员会严厉批评的那种无关紧要的包含。但图灵寻求的是即时处理数据并汇总多种信息的能力。智能,除其他外,意味着了解长度和颜色等事物,也意味着知道什么是瓦状头发。

模仿游戏的测试方法也比标准版图灵测试更好,因为它涉及比较人类欺骗的能力和机器欺骗的能力。乍一看,这似乎有些疯狂——如果这项测试的目的是让计算机像我们一样思考,谁会在乎它们是否能假装成某种性别呢?然而,模仿游戏的精彩之处在于它是一场比赛。它为程序员设定了一个特定的目标,而不是上演一场开放式的类似人类计算的演示。它要求计算机执行一项人类竞争对手也可能失败的任务。另一方面,图灵测试并不是在真正的比赛中让计算机与人对抗。人类可能会被纳入控制元素,但没有人希望他们在最基本的任务——做人——上失败。

模仿游戏可能仍然容易受到现代聊天机器人技术的攻击。正如“约会”网站上大量调情程序所证实的那样,依靠蹩脚的刻板印象可能是一种出人意料的成功策略,可以暂时欺骗人类。图灵最初的提议并不完美。考虑到它的先进性以及自它被编写以来人工智能的发展,它也不应该是神圣不可侵犯的。但尽管它存在种种问题和混乱的社会文化复杂性,我认为我们用图灵测试取代模仿游戏并没有给图灵带来任何好处。在假装成活生生的女人方面比男人更好是人工智能不可否认的艰难胜利条件。但这是一个更为克制的实验,而不仅仅是模仿半文盲人类躲避聊天室的习惯,并且需要更大的机器认知能力。在最近这一轮令人喘不过气来的公告和应得的强烈反对之后,没有人会在意下一组不假思索的自动回复是否通过了图灵测试。

但如果某种东西在模仿游戏中打败了人类呢?

写到这里我就已经感到浑身发冷。

<<:  人类穿上机器人外骨骼为世界杯开球

>>:  世界杯足球的空气动力学(GIF 格式)

推荐阅读

使用佳能令人印象深刻的 EOS R 全画幅无反光镜相机拍摄

佳能的全画幅无反光镜相机 EOS R 拥有 30.3 MP CMOS 传感器和专门设计的 RF 卡口...

Razer Edge 评测:一款美观、便携且不会随身携带的游戏设备

市场已经准备好迎接一款既不是游戏电脑,又能像游戏电脑一样运作的产品。Steam Box 的概念已经被...

Gararin与Gororin的魅力与评价:探索动漫的深层世界

加拉林和戈罗林 - 加拉林托·戈罗林概述《Gararin and Gororin》是1996年4月1...

几十年来,欧洲的古生物学家一直未能发现这些长着牙齿的食草恐龙

而像三角龙和霸王龙这样的大型恐龙 尽管它们在北美占据主导地位,并且仍然受到当今电影的关注,但它们并不...

麻省理工学院的研究表明曼哈顿只需要 3,000 辆出租车

私家车大部分时间都停在路边,就像一艘空船,等待着短暂的用途。出租车是一种很少等待的汽车,因为每片刻的...

为什么深奥的性格测试往往提供肤浅的答案

您是否曾点击过“您最喜欢的动物说明了什么?”这样的链接,想知道您对刺猬的喜爱是否揭示了您的内心世界?...

欢迎来到魔王学院第二季的魅力与评价!入间君

《欢迎来到魔界学校!入间君》第二季的魅力与评价《欢迎来到魔界学校!入间君》是改编自西治的人气漫画的电...

我们可能拥有第八大洲。这就是为什么这很重要。

我明白——我们仍然对冥王星心怀怨恨。我们希望它一直是一颗行星,所以我们会一直怀着我们的义愤,直到我们...

具有革命性潜力的太阳能收集器刚刚离开地球

经过十多年的研究,包括两年的折纸组件测试,一颗用于收集太阳能的小型原型卫星于昨天上午在佛罗里达州卡纳...

企鹅可能要感谢岛屿,因为它们的外表千差万别

说到企鹅,我们通常会想到在南极海冰上蹒跚而行的标志性帝王企鹅。但至少还有 20 种其他物种需要考虑,...

彻底解析《我们的人》的魅力和电影的动人故事!

“Atashinchi”电影评论和详细信息■作品概要《我们的世界》是根据Kera Eiko的人气漫...

使用免费软件恢复旧印刷照片

当你想重新查看一张旧的数码照片时,你可以简单地浏览过去的社交媒体帖子或打开你最喜欢的存储应用程序。但...

Jawbone Big Jambox 评测:尺寸扩大三倍,音质提升三倍

去年,我们称 Jawbone 的 Jambox 是“最好、最小的无线扬声器”,这是有充分理由的。这块...

JK饭! - 深入探讨女高中生的日常生活和烹饪的魅力的评论

“JK饭!” - 短篇动画的魅力和世界观“JK饭!”是一部短篇动画系列,于 2015 年 10 月 ...

从军用飞机中弹射出来的感觉如何

当军用飞机出现严重故障时,飞行员的最后救命稻草就是他们所坐的设备:座椅。而且它永远不会出故障。弹射座...