谷歌的这款新 AI 工具可能会改变我们在线搜索的方式

谷歌的这款新 AI 工具可能会改变我们在线搜索的方式

互联网搜索的未来是什么样的?谷歌设想它看起来更像是与朋友的随意交谈。

虽然谷歌的搜索引擎已经上线二十多年,但其背后的技术却一直在不断发展。最近,该公司宣布了一款名为 MUM 的新人工智能系统,MUM 代表多任务统一模型。MUM 旨在在全球范围内捕捉人类语言的微妙之处和细微差别,这可以帮助用户更轻松地找到他们要搜索的信息,或者让他们提出更抽象的问题。

谷歌已在一项独立任务中使用 MUM 来了解人们对 COVID 疫苗的不同称呼,但表示这项新技术尚未成为其搜索系统的一部分。虽然目前尚无关于该功能何时在实时搜索中推出的时间表,但该团队正在积极开发其他一次性任务供 MUM 完成。

以下是关于 MUM 的知识、它与之前的有何不同等等。

破解新冠疫苗命名之谜

今年早些时候疫苗上市时,谷歌搜索副总裁潘杜·纳亚克 (Pandu Nayak) 和同事们设计了一种“体验”,当用户搜索新冠疫苗时,它会向人们提供有关疫苗的信息——在哪里可以买到、疫苗如何发挥作用以及疫苗在哪里可以买到。这种体验将所有这些重要且相关的信息拼凑在一起,并将其固定在搜索结果第一页的顶部。但首先,团队需要对其进行编程,以便只有在查询与新冠疫苗有关时才会弹出。这可能会成为一个问题,因为世界各地的人可能以不同的方式和不同的名称来提及新冠疫苗。

去年,该团队花了数百小时梳理资源,以确定 COVID 本身的所有不同名称。但今年,他们有了 MUM。“我们能够使用 MUM 进行一个非常简单的实验,在几秒钟内就能用 50 种不同的语言为 17 种不同的疫苗生成 800 多个名称,”Nayak 说。“我们有很多语言任务需要解决,无论是分类、排名、信息提取还是一大堆其他任务。在短期内,我们希望使用 MUM 来改进每一个任务。这并不是说它会带来新功能或新体验,而是现有功能和现有体验会变得更好。”

在 Google I/O 大会上与 MUM 会面

我们第一次听说 MUM 是在春季的 Google I/O 开发者大会上,当时谷歌高级副总裁 Prabhakar Raghavan 发布了它。

这项新技术是谷歌在过去十年中不断改进和改进的机器学习搜索的自然演变。谷歌宣称,MUM 能够获得对世界的深度了解,理解并生成语言,并同时训练 75 种语言。内部试点也在测试它是否可以实现多模式,即能够同时理解不同形式的信息,如文本、图像和视频。

所有这些复杂性都可以通过会议上和博客文章中列出的一个简单示例来说明。假设你问谷歌,“我已经爬过亚当斯山,现在想在明年秋天爬富士山,我应该做哪些不同的准备?”这是大多数人今天不会费心输入的搜索查询类型,因为用户知道这通常不是你在线搜索信息的方式。

“这是一个你会随便问朋友的问题,但如今的搜索引擎无法直接回答,因为它太具有对话性和微妙性了,”Raghavan 在 I/O 上解释道。但理想情况下,MUM 会明白你想要比较两座山,也会明白“准备”可能包括地形的健身训练和秋季天气的远足装备等。它将能够剖析你的问题并将其分解为一组查询,了解问题的各个方面,然后将其重新组合在一起。用户可以点击以了解有关问题各个方面搜索结果的更多信息,还可以获得解释如何回答原始查询的总体文本。

这样的体验是 MUM 工程师的长期目标,目前尚不清楚实现这一目标需要多长时间。从中期来看,谷歌的工程师正在训练 MUM 识别单词和图像之间的关系,而且进展顺利。纳亚克说,当他们要求 MUM 为他们输入的新文本生成图像时,比如西伯利亚哈士奇,它“表现得相当出色”。

搜索简史

自 1998 年成立以来,Google 一直致力于绘制网络地图、收集大量内容并创建索引来组织所有信息。

您可以将 Google 搜索索引想象成书末的索引。它会告诉您特定单词出现的所有页面。但互联网与书末的索引有两个重要区别。第一,一本书可能有 300 到 1,000 页,与互联网的数万亿页相比,这个数字并不大。第二个重要区别是,使用书末的索引,您每次只能查找一个单词,而在网上,您查找的是单词组合。“由于这种规模和这种组合的爆炸式增长,我们每天从世界各地收到数十亿次查询,”Nayak 说。“而这里值得注意的事实是,我们每天收到的搜索中有 15% 是我们从未见过的。查询流中存在大量新奇内容。”

纳亚克补充道,新颖性的部分原因在于拼写错误的新方式,部分原因在于世界在不断变化,人们要求新的(有时是非常具体的)事物。

为了将所有可能的网络信息精简为真正与您的查询相关的信息,Google 使用一种算法将其认为最有用的页面排在最前面,使用新鲜度和位置等因素,以及不同页面之间的链接方式。“到目前为止,最重要的一类因素与语言理解有关,”Nayak 说。“语言理解确实是搜索的核心,因为您需要了解查询的含义,您需要了解文档的含义,以及这两者如何相互匹配。”

当然,软件无法像我们一样真正理解语言,包括其所有微妙之处和细微差别。但程序员可以开发各种策略,试图接近我们理解语言的方式。就在 16 年前,谷歌建立了同义词系统的第一个版本,该系统解释了不同单词在不同语境中具有不同含义的事实。因此,当你谈论笔记本电脑亮度时,“改变”可以表示“调整”。如果不理解这一点,许多相关页面将因用词变化而被排除在搜索结果之外。

[相关:你的 Google 搜索历史记录需要自己的密码]

大约十年前,该公司创建了知识图谱。其背后的想法是,查询或文档中的单词不仅仅是字符串,如果指代世界上的人、地点或事物,它们也可以具有某种意义。“如果你不理解某个字符串的含义,那么你就没有完全理解这个词的含义,”纳亚克解释道。人、地点、事物、公司等实体被放入数据库,知识图谱将它们之间的关系联系起来。它还会对名人或地标等实体的需要了解的快速事实进行快速总结。

例如,如果您搜索“居里夫人”,Google 的知识图谱可以告诉您她的出生时间和地点、她与谁结婚、她的孩子是谁、她在哪里上的大学以及她以什么闻名。这是一种方便地展示 Google 搜索后显示的页面结果列表之外的信息的方式。

机器学习热度上升

大约六年前,谷歌推出了第一版基于机器学习的搜索。随后,它基于深度学习社区对自然语言算法的不断研究,不断对其进行改进,这些算法可以查看单词的上下文来理解其含义并找出需要关注的上下文部分。2019 年,谷歌推出了用于搜索的 BERT 架构。它的训练算法实际上是一系列“填空”练习。你可以取一个常用短语,屏蔽随机单词,然后让网络预测这些单词是什么。它也被称为掩码语言模型。

[相关:谷歌如何主宰人工智能]

对于“你能在药房为某人取药吗”这样的查询,以前搜索者会得到关于在药房取处方的结果。BERT 明白这不仅是取处方,而且是为其他人(如朋友或家人)取处方。“我们能够显示更相关的结果,因为它发现了问题中一些我们以前无法处理的微妙之处,”Nayak 说。

展望未来,MUM 不仅能够像 BERT 一样理解语言,还能生成语言。相比之下,MUM 比 BERT 大得多,功能也更强大(谷歌表示,它的功能大约是 BERT 的 1,000 倍)。MUM 是在谷歌提供的所有不同语言的公共网络语料库的高质量子集上进行训练的。搜索团队会删除低质量内容、成人内容、露骨内容、仇恨言论,因此 MUM 学习的语言在某种意义上是好的(希望如此)。通过同时对所有语言进行训练,它能够将信息从具有大量数据的语言推广到具有较少数据的语言,从而填补可用于训练的数据较少的空白。

但纳亚克承认,像 MUM 这样的大型语言模型确实存在挑战,团队正在积极努力解决这些问题。“例如,其中一个问题就是偏见。由于这是在网络语料库之外训练的,因此人们担心它是否反映或强化了网络中的偏见,”纳亚克说。纳亚克希望,它是在语料库的高质量子集上训练的,这将消除一些最严重的偏见。谷歌继续使用搜索质量评估员和其他评估流程来检查他们的结果并寻找问题的模式。“它不能解决所有问题,但它是一个重要的缓解措施。”

[相关:每个谷歌应用的隐私设置指南]

MUM 是基于 Google 一直在试验的一系列创新功能而开发的,旨在提高搜索质量。“如今,当人们进行搜索时,他们脑子里不会出现完整的查询。他们带着一些关于生活中发生的事情的广泛意图进行搜索,”Nayak 说。“你必须将这种模糊的需求转化为一个或多个可以发送给 Google 的查询,了解问题的不同方面,然后将它们整合在一起。”

自动完成等功能在一定程度上有助于简化搜索过程,但 MUM 可以开辟一系列新的可能性。“我认为所有搜索工具的真正问题是,”Nayak 说,“因为它们是工具,即使它不完美,它有用吗?”

<<:  这款尖端无人机即将退役,成为空军博物馆的常客

>>:  一支有翼水下机器人舰队将为美国海军巡逻海洋

推荐阅读

NSFW:全球色情搜索调查 [信息图]

PornMD,尽管名字听起来很特别,但实际上是 PornHub 热门色情网站网络中的色情搜索引擎,...

龙卷风科学研究风险很高,而且技术含量越来越高

本文最初刊登于《Knowable Magazine》。 1986 年 7 月的一个闷热的日子,一架新...

这是迄今为止我们见过的最好的 Costco 会员优惠,但很快就会结束

如果你还不是 Costco 会员,你可能需要重新考虑一下。这已经很划算了,但我们发现他们最高级别的会...

月球探测器正在不断进化,以在严酷的月夜中生存下来

白天温度高达 260 华氏度,随后数周夜晚温度会降至零下 280 华氏度,日本的 SLIM 等月球探...

今天是世界海龟日,这里有一群可爱的海龟

嗨,朋友!Pexels 2000 年——这一年,夏季奥运会在悉尼举行,佛罗里达州选举委员会对悬而未决...

仅供参考:摩天大楼可以预防龙卷风吗?

事实上,与时代广场相比,堪萨斯平原是龙卷风更为常见的背景,但如果条件合适,漏斗状云几乎可以在任何地方...

回顾《梦想的魔力》:被每个人的歌曲魔力所陶醉的动人体验

《梦的魔法》的魅力与评价《梦的魔法》是一部时长只有两分钟的短篇动画作品,于 1996 年 4 月在 ...

爱丽丝侦探社第一季的号召与评价:欢迎来到解谜的世界

爱丽丝侦探社第 1 季 - Aristan Teikyok - 详细评论和推荐概述《爱丽丝侦探社》是...

这款终身电子学习套装 ft. Rosetta Stone 现已以更低价格发售

学习一门新语言最初可能看起来令人望而生畏,但它也带来了机遇。Rosetta Stone 提供了一种有...

更快地在浏览器中执行所有操作

本文已更新。最初于 2019 年 12 月 9 日发布。我们在网络浏览器中花费了大量的计算时间,这意...

太阳马戏团现通过虚拟现实让你成为演出的一部分

提到太阳马戏团,你脑海中浮现的词语很可能是“戏剧”、“杂技”和“多产”。这家总部位于加拿大蒙特利尔的...

半人马的烦恼:探究独特世界观和深刻人物的魅力

半人马的烦恼——独特的世界观和深刻的主题《半人马的烦恼》是一部 2017 年动画电视连续剧,改编自村...

文豪野犬 OVA 的魅力与评价:粉丝必看的内容

《文豪野犬》OVA——魅力深厚、故事丰富《文豪野犬》是朝雾卡夫卡创作、Harukawa35 作画的人...

送货无人机的梦想已经实现(而且是在卡车上)

亚马逊的无人机送货服务永远都无法成功。至少在美国,而且在首席执行官杰夫·贝佐斯于 2013 年 12...

今年,太空成为头条新闻。以下是我们最喜欢的故事

这十年发生了很多事。美国宇航局和其他太空机构完成了一系列大胆的任务,探索从冰卫星到矮行星的奇异天体。...