谷歌的这款新 AI 工具可能会改变我们在线搜索的方式

谷歌的这款新 AI 工具可能会改变我们在线搜索的方式

互联网搜索的未来是什么样的?谷歌设想它看起来更像是与朋友的随意交谈。

虽然谷歌的搜索引擎已经上线二十多年,但其背后的技术却一直在不断发展。最近,该公司宣布了一款名为 MUM 的新人工智能系统,MUM 代表多任务统一模型。MUM 旨在在全球范围内捕捉人类语言的微妙之处和细微差别,这可以帮助用户更轻松地找到他们要搜索的信息,或者让他们提出更抽象的问题。

谷歌已在一项独立任务中使用 MUM 来了解人们对 COVID 疫苗的不同称呼,但表示这项新技术尚未成为其搜索系统的一部分。虽然目前尚无关于该功能何时在实时搜索中推出的时间表,但该团队正在积极开发其他一次性任务供 MUM 完成。

以下是关于 MUM 的知识、它与之前的有何不同等等。

破解新冠疫苗命名之谜

今年早些时候疫苗上市时,谷歌搜索副总裁潘杜·纳亚克 (Pandu Nayak) 和同事们设计了一种“体验”,当用户搜索新冠疫苗时,它会向人们提供有关疫苗的信息——在哪里可以买到、疫苗如何发挥作用以及疫苗在哪里可以买到。这种体验将所有这些重要且相关的信息拼凑在一起,并将其固定在搜索结果第一页的顶部。但首先,团队需要对其进行编程,以便只有在查询与新冠疫苗有关时才会弹出。这可能会成为一个问题,因为世界各地的人可能以不同的方式和不同的名称来提及新冠疫苗。

去年,该团队花了数百小时梳理资源,以确定 COVID 本身的所有不同名称。但今年,他们有了 MUM。“我们能够使用 MUM 进行一个非常简单的实验,在几秒钟内就能用 50 种不同的语言为 17 种不同的疫苗生成 800 多个名称,”Nayak 说。“我们有很多语言任务需要解决,无论是分类、排名、信息提取还是一大堆其他任务。在短期内,我们希望使用 MUM 来改进每一个任务。这并不是说它会带来新功能或新体验,而是现有功能和现有体验会变得更好。”

在 Google I/O 大会上与 MUM 会面

我们第一次听说 MUM 是在春季的 Google I/O 开发者大会上,当时谷歌高级副总裁 Prabhakar Raghavan 发布了它。

这项新技术是谷歌在过去十年中不断改进和改进的机器学习搜索的自然演变。谷歌宣称,MUM 能够获得对世界的深度了解,理解并生成语言,并同时训练 75 种语言。内部试点也在测试它是否可以实现多模式,即能够同时理解不同形式的信息,如文本、图像和视频。

所有这些复杂性都可以通过会议上和博客文章中列出的一个简单示例来说明。假设你问谷歌,“我已经爬过亚当斯山,现在想在明年秋天爬富士山,我应该做哪些不同的准备?”这是大多数人今天不会费心输入的搜索查询类型,因为用户知道这通常不是你在线搜索信息的方式。

“这是一个你会随便问朋友的问题,但如今的搜索引擎无法直接回答,因为它太具有对话性和微妙性了,”Raghavan 在 I/O 上解释道。但理想情况下,MUM 会明白你想要比较两座山,也会明白“准备”可能包括地形的健身训练和秋季天气的远足装备等。它将能够剖析你的问题并将其分解为一组查询,了解问题的各个方面,然后将其重新组合在一起。用户可以点击以了解有关问题各个方面搜索结果的更多信息,还可以获得解释如何回答原始查询的总体文本。

这样的体验是 MUM 工程师的长期目标,目前尚不清楚实现这一目标需要多长时间。从中期来看,谷歌的工程师正在训练 MUM 识别单词和图像之间的关系,而且进展顺利。纳亚克说,当他们要求 MUM 为他们输入的新文本生成图像时,比如西伯利亚哈士奇,它“表现得相当出色”。

搜索简史

自 1998 年成立以来,Google 一直致力于绘制网络地图、收集大量内容并创建索引来组织所有信息。

您可以将 Google 搜索索引想象成书末的索引。它会告诉您特定单词出现的所有页面。但互联网与书末的索引有两个重要区别。第一,一本书可能有 300 到 1,000 页,与互联网的数万亿页相比,这个数字并不大。第二个重要区别是,使用书末的索引,您每次只能查找一个单词,而在网上,您查找的是单词组合。“由于这种规模和这种组合的爆炸式增长,我们每天从世界各地收到数十亿次查询,”Nayak 说。“而这里值得注意的事实是,我们每天收到的搜索中有 15% 是我们从未见过的。查询流中存在大量新奇内容。”

纳亚克补充道,新颖性的部分原因在于拼写错误的新方式,部分原因在于世界在不断变化,人们要求新的(有时是非常具体的)事物。

为了将所有可能的网络信息精简为真正与您的查询相关的信息,Google 使用一种算法将其认为最有用的页面排在最前面,使用新鲜度和位置等因素,以及不同页面之间的链接方式。“到目前为止,最重要的一类因素与语言理解有关,”Nayak 说。“语言理解确实是搜索的核心,因为您需要了解查询的含义,您需要了解文档的含义,以及这两者如何相互匹配。”

当然,软件无法像我们一样真正理解语言,包括其所有微妙之处和细微差别。但程序员可以开发各种策略,试图接近我们理解语言的方式。就在 16 年前,谷歌建立了同义词系统的第一个版本,该系统解释了不同单词在不同语境中具有不同含义的事实。因此,当你谈论笔记本电脑亮度时,“改变”可以表示“调整”。如果不理解这一点,许多相关页面将因用词变化而被排除在搜索结果之外。

[相关:你的 Google 搜索历史记录需要自己的密码]

大约十年前,该公司创建了知识图谱。其背后的想法是,查询或文档中的单词不仅仅是字符串,如果指代世界上的人、地点或事物,它们也可以具有某种意义。“如果你不理解某个字符串的含义,那么你就没有完全理解这个词的含义,”纳亚克解释道。人、地点、事物、公司等实体被放入数据库,知识图谱将它们之间的关系联系起来。它还会对名人或地标等实体的需要了解的快速事实进行快速总结。

例如,如果您搜索“居里夫人”,Google 的知识图谱可以告诉您她的出生时间和地点、她与谁结婚、她的孩子是谁、她在哪里上的大学以及她以什么闻名。这是一种方便地展示 Google 搜索后显示的页面结果列表之外的信息的方式。

机器学习热度上升

大约六年前,谷歌推出了第一版基于机器学习的搜索。随后,它基于深度学习社区对自然语言算法的不断研究,不断对其进行改进,这些算法可以查看单词的上下文来理解其含义并找出需要关注的上下文部分。2019 年,谷歌推出了用于搜索的 BERT 架构。它的训练算法实际上是一系列“填空”练习。你可以取一个常用短语,屏蔽随机单词,然后让网络预测这些单词是什么。它也被称为掩码语言模型。

[相关:谷歌如何主宰人工智能]

对于“你能在药房为某人取药吗”这样的查询,以前搜索者会得到关于在药房取处方的结果。BERT 明白这不仅是取处方,而且是为其他人(如朋友或家人)取处方。“我们能够显示更相关的结果,因为它发现了问题中一些我们以前无法处理的微妙之处,”Nayak 说。

展望未来,MUM 不仅能够像 BERT 一样理解语言,还能生成语言。相比之下,MUM 比 BERT 大得多,功能也更强大(谷歌表示,它的功能大约是 BERT 的 1,000 倍)。MUM 是在谷歌提供的所有不同语言的公共网络语料库的高质量子集上进行训练的。搜索团队会删除低质量内容、成人内容、露骨内容、仇恨言论,因此 MUM 学习的语言在某种意义上是好的(希望如此)。通过同时对所有语言进行训练,它能够将信息从具有大量数据的语言推广到具有较少数据的语言,从而填补可用于训练的数据较少的空白。

但纳亚克承认,像 MUM 这样的大型语言模型确实存在挑战,团队正在积极努力解决这些问题。“例如,其中一个问题就是偏见。由于这是在网络语料库之外训练的,因此人们担心它是否反映或强化了网络中的偏见,”纳亚克说。纳亚克希望,它是在语料库的高质量子集上训练的,这将消除一些最严重的偏见。谷歌继续使用搜索质量评估员和其他评估流程来检查他们的结果并寻找问题的模式。“它不能解决所有问题,但它是一个重要的缓解措施。”

[相关:每个谷歌应用的隐私设置指南]

MUM 是基于 Google 一直在试验的一系列创新功能而开发的,旨在提高搜索质量。“如今,当人们进行搜索时,他们脑子里不会出现完整的查询。他们带着一些关于生活中发生的事情的广泛意图进行搜索,”Nayak 说。“你必须将这种模糊的需求转化为一个或多个可以发送给 Google 的查询,了解问题的不同方面,然后将它们整合在一起。”

自动完成等功能在一定程度上有助于简化搜索过程,但 MUM 可以开辟一系列新的可能性。“我认为所有搜索工具的真正问题是,”Nayak 说,“因为它们是工具,即使它不完美,它有用吗?”

<<:  这款尖端无人机即将退役,成为空军博物馆的常客

>>:  一支有翼水下机器人舰队将为美国海军巡逻海洋

推荐阅读

我们可能意外地在地球周围形成了一个保护气泡

当海军想要向水下潜艇发送信息时,有时会使用甚低频 (VLF) 无线电波。这些长波长的无线电波从地面上...

乱马½ OVA 系列 #1 的吸引力与评论:为什么它是必看的?

乱马 ½ OVA 系列 #1 - 乱马 ½ 《乱马半 OVA 系列 #1》是 1993 年 10 月...

深度回顾《翼·年代记》第二季:透彻解读故事情节和人物演变

翼·年代记 [第二季] - 感人的旅程与纯真爱情的结晶《翼·年代记[第二季]》是改编自CLAMP的人...

北极熊在 7 万年前就适应了北极

北极并不是地球上最适宜居住的地方。一些北极动物,比如驯鹿,拥有多种基因适应能力,帮助它们在那里繁衍生...

《浅出すぎどぎ!》的魅力与评价:深夜动画的新可能性

《浅出すぎる中!》的魅力与评价- 对整个 OVA 进行彻底分析介绍“上课到早上才休息!”是基于 Mu...

网络动漫《Pokémon LEGENDS Arceus》的魅力与评价

精灵宝可梦传奇阿尔宙斯网络动画《雪花》评论和详情概述宝可梦传说阿尔宙斯网络动画《白雪公主的归来》是一...

彻底解析电影《PriPara》的魅力与刺激!大家集合! Prism☆Tours:评论和推荐点

电影《PriPara》:大家聚集起来!棱镜旅游评论2015年3月7日上映的《剧场版PriPara:大...

仅用一盏灯泡就能为全美带来电能

再过一个多月,我和儿子将从纽约市出发,开始为期 4,500 英里、为期一整个夏天的公路旅行。我们并不...

《沙漠玫瑰:雪灾》的魅力与评价:深刻的故事与视觉的融合

沙雪末日的玫瑰 - 沙玫瑰雪末日概述《沙漠玫瑰:雪之启示录》于 1993 年 4 月 25 日以 O...

全面回顾 Pochacco 令人兴奋的生日和胡萝卜地混乱!三丽鸥动漫的魅力是什么?

三丽鸥角色动画系列 Pochacco 的兴奋生日 / Pochacco 的胡萝卜农场大闹一场■ 公共...

七款音乐应用让你的 Apple Watch 变身音频控制器

随着每次更新,Apple Watch 变得越来越有用。但要充分利用它,您需要为其加载正确的应用程序。...

这款十合一扩展坞可提高您的工作效率

使用这款 10 合 1 USB-C 扩展坞和平板电脑支架打造一个功能齐全的工作站,现售价 64.99...

KMel Robotics 四旋翼飞行器集群实验室内部

每年夏天,广告和传播界最具创意的人才都会聚集在法国度假胜地戛纳,在法国蔚蓝海岸的戛纳国际创意节上庆祝...

蒙奇三吉:防空战——战术与幽默的完美结合

《猴三吉:防空战》:战前日本动画的历史意义和吸引力1. 工作概述《猴三吉:防空战篇》是一部日本动画电...

加州的积雪对干旱的加州来说是个好消息——就目前而言

加州的潮湿冬季仍在继续,雨水和暴风雪仍在袭击该州。这些持续不断的暴风雪使加州积雪量达到多年来这个饱受...