GPT-3 在 SAT 考试中表现相当出色

GPT-3 在 SAT 考试中表现相当出色

像 GPT-3 这样的大型语言模型赋予聊天机器人一种不可思议的能力,可以像人类一样回答我们的探索性问题。但它们到底有多聪明?加州大学洛杉矶分校心理学家本周在《自然人类行为》杂志上发表的一项新研究发现,语言模型 GPT-3 的推理能力比普通大学生更好——这可以说是一个很低的标准。

研究发现,在回答 SAT 等标准化考试中的一系列问题时,GPT-3 的表现优于一组 40 名加州大学洛杉矶分校的本科生,因为 SAT 需要使用熟悉问题的解决方案来解决新问题。

新闻稿称:“问题要求用户选择具有相同关系的单词对。(例如,在问题中:“爱”与“恨”的关系相当于“富”与哪个词的关系?答案是“穷”。)”另一组类比是从短篇小说中的一段话中得出的提示,问题与该故事中的信息相关。新闻稿指出:“这个过程被称为类比推理,长期以来一直被认为是人类独有的能力。”

事实上,GPT-3 的分数比大学申请者的平均 SAT 分数要高。在通过一组称为瑞文渐进矩阵的问题进行测试时,GPT-3 在逻辑推理方面的表现也与人类受试者一样好。

GPT-3 在 SAT 考试中表现出色并不令人意外。之前的研究曾通过要求该模型参加一系列标准化考试(如 AP 考试、LSAT 甚至 MCAT)来测试其逻辑能力,结果它以优异的成绩通过了考试。最新版本的语言模型 GPT-4 增加了图像处理能力,表现更加出色。去年,谷歌研究人员发现,他们可以通过思路链提示来改善此类语言模型的逻辑推理能力,将复杂问题分解为更小的步骤。

[相关:研究表明,ChatGPT 的准确性变得更差]

尽管当今的人工智能从根本上挑战了计算机科学家重新思考图灵测试等机器智能的基本基准,但这些模型还远不够完美。

例如,加州大学河滨分校的一个研究小组本周发表的一项研究发现,谷歌和 OpenAI 的语言模型在回答患者询问时提供的医疗信息不完整。今年早些时候,斯坦福大学和伯克利大学的科学家进行了进一步研究,发现 ChatGPT 在生成代码或解决数学问题时,答案越来越草率,原因不明。在普通人中,虽然 ChatGPT 很有趣也很受欢迎,但它在日常使用中并不实用。

而且,它在视觉谜题和理解现实世界的物理和空间方面仍然表现不佳。为此,谷歌正在尝试将多模态语言模型与机器人结合起来解决这个问题。

很难判断这些模型是否像我们一样思考——它们的认知过程是否与我们相似。话虽如此,擅长应试的人工智能通常并不像人类那样聪明。很难判断它们的极限在哪里,它们的潜力是什么。这需要对它们进行开放,并公开它们的软件和训练数据——这是专家们对 OpenAI 对其法学硕士研究的严密保护的基本批评。

<<:  过时的宽带设备可以作为电动汽车充电器获得新生命

>>:  首创的人工智能大脑植入手术帮助一名男子恢复手部感觉

推荐阅读

忍者乱太郎第26季的魅力与评价:新的冒险与成长之路

《忍者乱太郎》第26季的诉求与评价《忍者乱太郎》是一部长篇动画,改编自宗兵卫天子的原著漫画,自 19...

我们来谈谈英语吧!全面评估WAKU★WAKU Pengy★的号召力与教育效果

“用英语聊天吧!WAKU★WAKU Pengy★”的魅力与评价《我们用英语聊天吧!WAKU★WAKU...

《初恋限定》的魅力与评价:彻底解析这部感人的爱情故事

“初恋有限公司。” “——一个温馨的爱情故事,描绘了青春的苦乐参半。 “初恋有限公司。” 《初恋的诱...

NoraSco:街头生活和迷人人物的真实写照

Nolasco 的全面审查和推荐概述Nolasco 是一部电视动画系列,于 2014 年 5 月 5...

科学家可能已经弄清楚了大象为何表现出复杂的情绪

野生大象可能是下一个加入表现出自我驯化迹象的物种名单的动物。4 月 3 日发表在《美国国家科学院院刊...

JBL PartyBox 110 评测:引起轰动

过去一年半以来,居家“派对”活动层出不穷,扬声器制造商 JBL 可能难以满足其现有蓝牙“派对扬声器”...

核爆炸后最佳和最差的避难所

在核弹爆炸的噩梦场景中,你可能会想象到灾难性的火球、蘑菇云升上异域天空,以及未来几天有毒尘暴雨。所有...

新型微波扫描仪可像超人一样穿过墙壁追踪移动物体

雷达问世已有近一个世纪。雷达是人类技术工具箱中低调的一项发明,其概念简洁而精巧:发射无线电波,用接收...

全面回顾《绊:男人之诗》第二部的动人故事和人物深度

《羁绊-人性的诗篇 第二部》全方位评价与推荐概述《绊:男人之诗后篇》是1991年在影院上映的动画电影...

以下是奥巴马政府为科学所做的贡献

今天是奥巴马总统第二任期也是最后一任期的结束。从第一次就职演说到最后一次国情咨文演讲,奥巴马一直承诺...

扭曲因子

去年 9 月,数百名科学家、工程师和太空爱好者齐聚休斯顿市中心的凯悦酒店,参加“百年星舰”第二次公开...

一个家庭建造了这辆博物馆级的好奇号火星车

卡米尔·贝蒂 10 岁时,她拆开了一个电视遥控器,把零件交给了惊讶的父亲罗伯特。接下来是一连串关于电...

《捕鲸人》的魅力与声誉:动人的故事与视觉美感的透彻诠释

《鲸鸟》:吉卜力工作室动画短片的魅力和深刻寓意介绍吉卜力工作室以其令人惊叹的视觉效果和深刻的故事情节...

声音变成光

加州劳伦斯利弗莫尔国家实验室的研究人员成功地将声波转换为光辐射,方法是逆转手机中常用的将电转换为声音...

GPS 卫星可将海啸预警时间缩短十倍

去年 3 月,日本东北地区发生地震时,地震仪数据让当局在首次意识到地震学上出现问题后八秒钟内就发布了...