像 GPT-3 这样的大型语言模型赋予聊天机器人一种不可思议的能力,可以像人类一样回答我们的探索性问题。但它们到底有多聪明?加州大学洛杉矶分校心理学家本周在《自然人类行为》杂志上发表的一项新研究发现,语言模型 GPT-3 的推理能力比普通大学生更好——这可以说是一个很低的标准。 研究发现,在回答 SAT 等标准化考试中的一系列问题时,GPT-3 的表现优于一组 40 名加州大学洛杉矶分校的本科生,因为 SAT 需要使用熟悉问题的解决方案来解决新问题。 新闻稿称:“问题要求用户选择具有相同关系的单词对。(例如,在问题中:“爱”与“恨”的关系相当于“富”与哪个词的关系?答案是“穷”。)”另一组类比是从短篇小说中的一段话中得出的提示,问题与该故事中的信息相关。新闻稿指出:“这个过程被称为类比推理,长期以来一直被认为是人类独有的能力。” 事实上,GPT-3 的分数比大学申请者的平均 SAT 分数要高。在通过一组称为瑞文渐进矩阵的问题进行测试时,GPT-3 在逻辑推理方面的表现也与人类受试者一样好。 GPT-3 在 SAT 考试中表现出色并不令人意外。之前的研究曾通过要求该模型参加一系列标准化考试(如 AP 考试、LSAT 甚至 MCAT)来测试其逻辑能力,结果它以优异的成绩通过了考试。最新版本的语言模型 GPT-4 增加了图像处理能力,表现更加出色。去年,谷歌研究人员发现,他们可以通过思路链提示来改善此类语言模型的逻辑推理能力,将复杂问题分解为更小的步骤。 [相关:研究表明,ChatGPT 的准确性变得更差] 尽管当今的人工智能从根本上挑战了计算机科学家重新思考图灵测试等机器智能的基本基准,但这些模型还远不够完美。 例如,加州大学河滨分校的一个研究小组本周发表的一项研究发现,谷歌和 OpenAI 的语言模型在回答患者询问时提供的医疗信息不完整。今年早些时候,斯坦福大学和伯克利大学的科学家进行了进一步研究,发现 ChatGPT 在生成代码或解决数学问题时,答案越来越草率,原因不明。在普通人中,虽然 ChatGPT 很有趣也很受欢迎,但它在日常使用中并不实用。 而且,它在视觉谜题和理解现实世界的物理和空间方面仍然表现不佳。为此,谷歌正在尝试将多模态语言模型与机器人结合起来解决这个问题。 很难判断这些模型是否像我们一样思考——它们的认知过程是否与我们相似。话虽如此,擅长应试的人工智能通常并不像人类那样聪明。很难判断它们的极限在哪里,它们的潜力是什么。这需要对它们进行开放,并公开它们的软件和训练数据——这是专家们对 OpenAI 对其法学硕士研究的严密保护的基本批评。 |
澳大利亚纽卡斯尔大学的两栖动物科学家约翰·古尔德第一次发现这些毛茸茸的青蛙是在池塘周围茂密的灌木丛中...
《3D电影:我们这里:激情超能力妈妈的疯狂》的号召与评价概述“3D剧场版:我们~热情的超能力者♪妈...
Sylvanian Families Flare 的梦想之旅! - 一个关于梦想和希望的故事“Sy...
《Reika ~rayca - Reika》的诉求与评价《Reika ~rayca》是万代视觉于20...
Trigun Badlands Rumble - 荒野盛宴与传奇赏金猎人《Trigun: Badla...
欢迎来到 2017 年 Apple 盛会。在这一天,我们可以看到一大堆新硬件,观看一些演示,我们的 ...
天气非常炎热,所以如果您可以选择呆在室内,不妨考虑观看一部时长三小时的新剪辑片,保持凉爽。剪辑片中,...
一名男子手持传统弓箭穿过空地。克里斯·道格拉斯这个故事最初刊登在《户外生活》杂志上。这是我见过的最奇...
二氧化碳最近备受关注。人们的关注也是可以理解的:5 月 11 日,二氧化碳浓度达到 415 ppm,...
我从没想过我会这么说,但是……我欺骗了你们、ChatGPT 和 Gemini。我当时做错了。但请听我...
谷歌希望你知道,它已经开发出了一些非常强大的人工智能技术。在其 Pixel 6 和 Pixel 6 ...
《紫苑之王:血之力量》——深邃的将棋世界与少女的成长■作品概要《Shion 之王:血之力量》是改编自...
我们已经在拉斯维加斯赛车场对双涡轮增压 V6 混合动力迈凯伦 Artura 进行了赛道测试,并以 2...
超级碗很有可能以一场佳得乐淋浴而结束——这一传统如此神圣,人们甚至打赌当这种补水饮料淋到获胜队的主教...
亚美十八白 第三季 - 亚美十八白《暗柴第三季》是 ILCA 制作的恐怖动画系列,于 2016 年 ...