微软的机器学习如何打破全球语言障碍

微软的机器学习如何打破全球语言障碍

本周早些时候,大约 50,000 名 Skype 用户发现了一种通过基于网络的电话和视频通话平台进行交流的新方式,这一功能简直就像是直接从《星际迷航》中借鉴过来的。这项名为 Skype Translator 的新功能可以实时翻译不同语言之间的语音通话,即时将英语翻译成西班牙语,再将西班牙语翻译回英语。Skype 计划逐步增加对 40 多种语言的支持,承诺将为台式机和移动设备提供通用翻译器。

Skype Translator 是微软研究院十多年专注研发的成果(微软于 2011 年收购了 Skype),它做到了其他几家硅谷巨头(更不用说美国国防部)尚未做到的事情。为了做到这一点,微软研究院 (MSR) 必须解决一些主要的机器学习问题,同时将深度神经网络等技术推向新领域。

他们的崇高目标是:让地球上的每个人都能与地球上的其他人进行交流

他们的崇高目标是:让地球上的任何人都能不受语言障碍的干扰地相互交流。Skype 公司副总裁 Gurdeep Pall 表示:“Skype 一直致力于打破障碍。我们认为,有了 Skype Translator,我们将能够填补长期以来存在的空白,实际上自人类交流开始以来就一直存在空白。”

微软与机器翻译有着长期的机构关系,这种关系可以追溯到 MSR 的早期。MSR 战略总监 Vikram Dendi 表示,机器学习小组是 MSR 内部最古老的小组之一。比尔盖茨资助了该小组并将其作为优先事项。

当时主导微软思维的“每张办公桌和每个家庭都有一台电脑”的口号给 MSR 带来了挑战。Dendi 说,越来越多的地方和语言产生了越来越多的数据,微软研究人员的任务是创建翻译引擎来解决这个问题。Dendi 说,到目前为止,互联网上最大的未动过的机器翻译文本宝库之一是微软的帮助论坛,这些论坛使用内部开发的翻译引擎被翻译成几十种语言。

但那是文本。翻译口语(尤其是实时翻译)需要一整套不同的工具。口语不仅仅是一种不同的语言交流媒介;我们在口语和文本中组织词语的方式也不同。此外还有语调、语调、肢体语言、俚语、习语、错误发音、地方方言和口语。文本提供数据;而口语及其所有细微差别只会带来问题。

在您停止讲话半拍后,将播放音频翻译

为了创建一种可行的语音到语音翻译技术,MSR 研究人员知道他们必须教会他们的系统不仅能够根据一套标准规则将一个单词翻译成另一种语言中的同一个单词,而且还能够理解单词和句子的含义。他们必须教会机器,而机器也必须学习。

MSR 公司副总裁 Peter Lee 表示,训练计算机语言的方法不止一种,但人类语言也不止一种方式会给计算机带来麻烦。MSR 采取了多方面的方法。“它结合了对语言的理解——语法、结构和含义——以及统计匹配过程,”他说。“如果我说‘我喜欢冰淇淋’,你知道它的意思可能就是这个意思。但如果我说‘哦,那次失误是压垮骆驼的最后一根稻草’,如果你逐字逐句地翻译成另一种语言,它可能就没有多大意义了。”

这涉及到机器翻译问题的核心:理解和翻译含义,而不仅仅是单词。MSR 研究人员通过使用统计概率映射不同语言中的单词和整个短语来解决这个问题。他们开始使用文本、任何已经翻译过的文本(教科书、欧盟议会演讲等)来构建知识体系。这允许翻译引擎设定基线并开始找出哪些短语(即使是那些不能直译的短语)是重叠的。

要将“压垮骆驼的最后一根稻草”这样的英语短语翻译成德语,系统会寻找概率匹配,根据它认为最有可能正确的短语从多个候选短语中选择最佳解决方案。随着时间的推移,系统对某些结果的信心会逐渐增强,从而减少错误。经过足够的使用,它会发现,德语使用者可能更熟悉等效短语“水桶倾倒”。

这种概率统计匹配可以让系统随着时间的推移变得更加智能,但它并不代表机器学习或翻译方面的突破(尽管 MSR 研究人员指出,他们已经在引擎中构建了一些非常复杂和独特的语法解析算法)。无论如何,翻译不再是这个等式中最难的部分。实时语音到语音翻译的真正突破出现在 2009 年,当时 MSR 的一个小组决定重返深度神经网络研究,以努力增强语音识别和合成——将口语转换为文本,反之亦然。

设计更像人脑而不是传统计算机

深度神经网络 (DNN) 是一种受生物启发的计算范式,其设计更像人脑而非传统计算机,它使计算机能够通过一种称为深度学习的强大过程进行观察学习。但在上个十年初期,构建基于 DNN 的系统被证明是困难的。许多研究人员转向了其他更有前景的解决方案。

大约十年的时间里,机器翻译的表现停滞不前。“整整十年的时间里,我们非常努力,每天都在发现新事物,但我们系统的质量却没有提高,”李说。“然后我们终于到达了一个临界点。” MSR 从未完全放弃 DNN 研究,当一群机器翻译研究人员开始积极追求 DNN,将其作为创建更快、更高效的语音识别引擎的手段时,他们经历了他们长期寻求的突破。DNN 技术已经取得了长足的进步,MSR 和其他地方的科学家此时已经能够通过 DNN 开发复杂的机器学习模型,这些模型的表现比传统计算机更像人脑中的神经元。“回归 DNN 至关重要,”Dendi 说。“如果有一个突破,那就是它了。”

新的 DNN 模型可以边学习边构建更大、更复杂的知识体系,这些知识体系与它们所训练的数据集有关,包括语言等。语音识别准确率上升了 25%。此外,DNN 的速度足够快,可以实现实时翻译,本周已有 5 万人体验到这一点。

用户不会注意到。所有这些技术奇迹都在后台发生。当 Skype 翻译通话中的一方说话时,他或她的话语会触及所有这些部分,首先传送到云端,然后依次通过语音识别系统、清除不必要的“嗯”和“啊”等的程序、翻译引擎和将翻译重新转换为可听语音的语音合成器。在那人停止说话半拍后,音频翻译已经开始播放,同时翻译的文本记录显示在 Skype 应用程序中。

Skype 翻译器并不完美。它仍然会遇到它不理解的习语、不常见的短语转换,或者我们大多数人在讲母语时会在一定程度上忽视正确的发音、句子结构或措辞。李和他的 Skype 同事并不为此烦恼。他们更感兴趣的是看看系统如何发展,成千上万的用户不仅测试了它的局限性,还教会了它 MSR 尚未考虑的语音和人机交互的新方面。

“我们对此感觉很好,”李说。“但是当这种东西在野外传播时,谁知道会发生什么呢?”

<<:  美国下一代间谍飞机内部

>>:  全球最快超级计算机竞赛

推荐阅读

掌握飞机上睡觉的艺术

在飞机上睡觉很难,但只要带上合适的装备、提前做好准备,并知道如何让自己舒服一点,就可以让事情变得更容...

《天气之子》评论:精美的视觉效果和动人的故事

新海诚新作《天气之子》 ■ 公共媒体剧院■ 原创媒体动漫原创■ 发布日期2019 年 7 月 19 ...

月球上可能遍布着来自地球的化石

自 1996 年以来,科学家们一直在争论火星陨石 ALH84001 是否包含火星上曾经存在生命的证据...

《Manga-ru!》的魅力与评价:动漫迷必读的评论

“漫画鲁!” 》:一部讲述漫画编辑部的奋斗与欢笑的温馨动画“漫画鲁!” 《漫画少女》是一部 2013...

美国宇航局向 SpaceX 支付费用,要求其摧毁国际空间站

SpaceX 将于 2031 年正式退役国际空间站。NASA 在 6 月 26 日的公告中确认,埃隆...

《惠的狂想曲》评论:深入探究激烈战斗与友情的故事

《惠的喧闹》全方位评论与推荐概述《惠的喧闹》是一部日本动画电影,于 1936 年上映。该片由 JO ...

宇宙精灵大剑豪:彻底解析这部令人着迷的机器人动画的魅力

宇宙妖精大鉄豪:拯救银河系的旅程■ 公共媒体电视动画系列■ 原创媒体动漫原创■ 播出时间1978 年...

使用亚马逊应用程序和服务的最佳小工具

我们的小工具越来越多地成为联网服务的窗口,用于完成流媒体视频、下载有声读物、与 Alexa 对话,甚...

新照片显示中国反潜战工具不断增强

中国网站 lt.cdbjy.net 上发布的新照片显示了中国反潜战能力建设的另一个问题。054A 型...

剧情转折:MoviePass 将于下个月起死回生

尽管困难重重,但据报道,MoviePass 重启计划已获批准。尽管多年来一直饱受丑闻和财务困境之苦,...

无论身在何处,健康饮食

旅行或游览新地方时,坚持特定饮食甚至只是吃健康食品可能很困难。饥饿时面对有限或不熟悉的选择并不容易—...

《Megemegerumba》的魅力与评价:深入了解《大家的歌》的杰作

Megemegerumba - 大家歌曲的杰作《Mege Megerumba》是1981年10月在N...

使用激光和微波创造麦田怪圈

在现代人的集体想象中,麦田怪圈通常被归咎于外星人或人类的阴谋,也可能两者兼而有之。一些麦田怪圈观察者...

天文学家发现一颗围绕距离太阳最近的单颗恒星运行的新系外行星

天文学家发现了一颗绕巴纳德星运行的小型系外行星,巴纳德星是距离太阳最近的单颗恒星。这颗新发现的系外行...

《冰冻》评论:精彩的战斗和深刻的故事

冰冻-战斗学校与青春的轨迹《冰冻先生》是改编自林多英、金光铉创作的漫画的电视动画,于2011年1月8...