研究表明,ChatGPT 的准确性变得更差

研究表明,ChatGPT 的准确性变得更差

两项新研究为 OpenAI 的 ChatGPT 大型语言模型程序带来了一个棘手的矛盾。尽管根据多项研究和资料,其广受欢迎的生成文本响应现在几乎与人类答案没有区别,但 GPT 似乎随着时间的推移变得越来越不准确。也许更令人沮丧的是,没有人能很好地解释这种令人不安的恶化。

斯坦福大学和加州大学伯克利分校的研究团队在周二发表的一项研究中指出,ChatGPT 的行为随着时间的推移发生了明显变化——而且不是朝着好的方向。更重要的是,研究人员对于这种反应质量下降的确切原因有些困惑。

为了检验 ChatGPT 底层 GPT-3.5 和 GPT-4 程序的一致性,该团队测试了人工智能的“漂移”倾向,即提供不同质量和准确度的答案,以及正确遵循给定命令的能力。研究人员要求 ChatGPT-3.5 和 ChatGPT-4 解决数学问题、回答敏感和危险问题、根据提示进行视觉推理以及生成代码。

[相关:大型科技公司最新的人工智能末日警告可能只是同样的炒作。]

在他们的审查中,该团队发现“总体而言……‘相同’的 LLM 服务的行为可以在相对较短的时间内发生很大变化,这凸显了持续监控 LLM 质量的必要性。”例如,2023 年 3 月的 GPT-4 识别素数的准确率接近 98%。然而,到 6 月,据报道,GPT-4 在同一任务中的准确率下降到不到 3%。与此同时,与 2023 年 3 月的版本相比,2023 年 6 月的 GPT-3.5 在素数识别方面有所改进。在计算机代码生成方面,两个版本生成计算机代码的能力在 3 月至 6 月之间都变差了。

这些差异可能会对现实世界产生影响——而且很快就会产生影响。本月早些时候,纽约大学的一个研究小组在《JMIR 医学教育》杂志上发表了一篇论文,指出 ChatGPT 对医疗相关问题的回答在语气和措辞方面与人类医疗专业人员表面上没有区别。研究人员向 392 人展示了 10 个患者问题和回答,其中一半来自人类医疗保健提供者,一半来自 OpenAI 的大型语言模型 (LLM)。参与者“区分人类和聊天机器人的回答的能力有限”。与此同时,人们对人工智能处理医疗数据隐私的能力以及它“产生幻觉”不准确信息的倾向越来越担忧。

注意到 ChatGPT 收益递减的并非只有学术界。正如Business Insider周三指出的那样,OpenAI 的开发者论坛一直在就 LLM 的进展(或缺乏进展)展开辩论。“有没有正式解决这个问题?作为付费客户,它从出色的助理副厨师变成了洗碗工。希望得到官方答复,”一位用户本月早些时候写道。

[相关:人工智能暂停信中存在一个明显的问题。]

OpenAI 的 LLM 研发以不接受外部审查而闻名,这一策略引起了行业专家和用户的强烈反对和批评。“真的很难说清楚为什么会发生这种情况,”ChatGPT 质量审查论文的合著者之一 Matei Zaharia 周三在推特上写道。加州大学伯克利分校计算机科学副教授兼 Databricks 首席技术官 Zaharia 继续推测,强化学习从人类反馈 (RLHF) 可能会像微调一样“遇到障碍”,但他也承认这可能只是系统中的缺陷。

因此,尽管 ChatGPT 可能通过了基本的图灵测试基准,但其参差不齐的质量仍然给公众带来了重大挑战和担忧——尽管几乎没有什么阻碍它们继续普及并融入日常生活。

<<:  第一艘以食物残渣为燃料的集装箱船准备起航

>>:  这种以真菌为基础的物质可能保护房屋免受日益严重的野火侵袭

推荐阅读

购买这款 1,300 流明的便携式手电筒可额外节省 15%

您每天携带的智能手机可能都内置有手电筒,但它的亮度不够,只能帮您找到掉在桌子下面的笔,或者帮您在电影...

AeroMobil 飞行汽车在斯洛伐克坠毁

上周五,最近荣登《大众科学》杂志 2015 年发明奖的 AeroMobil 3.0 原型机在斯洛伐克...

REDLINE 评论:体验极致的速度和动作!

REDLINE - 评论和推荐■ 公共媒体剧院■ 原创媒体动漫原创■ 发布日期2010 年 10 ...

《勇敢成为我们的朋友》:深入解析NHK《大家的歌》动人的歌词和旋律

“让勇气成为你的朋友”——回顾大家的歌曲杰作《作为朋友的勇气》是一部时长只有两分钟的短篇动画电影,于...

《柴太郎》评论:超出预期的故事和人物

《柴太郎》综合评价与推荐 - 柴太郎概述“要我打你吗?”于 1993 年 11 月 25 日作为 O...

微型能量喷流可以为猛烈的太阳风提供动力

一方面,太阳提供生命所需的热量和光。另一方面,它不断喷出可能有害的带电粒子流。这些粒子形成太阳风,其...

如何选择适合你的游戏机

过去几年,“游戏机大战”的激烈程度有所减缓,因为每款游戏机的升级和更新都是循序渐进的,而不是惊天动地...

ARIA The NATURAL #2 评论:水城的魅力与成长的故事

ARIA The NATURAL 的吸引力和评价《ARIA The NATURAL》是 2006 年...

我们真的可以停止使用化石燃料吗?

今年 7 月,当 Dawn Lippert 在家乡檀香山的海滩上冲浪时,一块不听话的冲浪板突然飞起,...

穆的白鲸:一部史诗冒险和深刻主题的评论与思考

对Moo的白鲸-Moo no Hakugei的全方位评价和推荐■ 公共媒体电视动画系列■ 原创媒体动...

见见这位拯救了现代城市一切美好事物的英雄

《大众科学》系列节目《建设者》将带您走进建筑工地,揭开历史上最伟大的建筑工程的建造者们的面纱。 1...

美国宇航局如何如此迅速地找到失踪的ExoMars着陆器

绕火星运行的高分辨率相机捕捉到了斯基亚帕雷利号着陆器最近撞击地点的证据。NASA/JPL-Calte...

《月亮气球》:重新评价大家动人的歌声

月之风船-月亮气球的魅力与评价《月球气球》是一部时长两分钟的短篇动画作品,于 1998 年 10 月...

这款合法上路的电动摩托车是瑞典的两轮极简主义

骑着你的自行车上路或越野。蛋糕本文最初发表于 Motorcyclistonline.com Cake...

《恐怖小京》评论:恐怖与欢笑的完美平衡

惊恐的小京:黑色幽默与极端喜剧的结合《惊恐小京》是一部短篇动画系列,于 1994 年至 1995 年...