如果您本周末收看超级碗比赛,观看一些足球比赛、音乐和广告,您会看到亚马逊语音助手 Alexa 的广告,该广告巧妙得有些过头了。当广告中的名人和演员说出“Alexa”这个词时,它不应该触发您家中的任何 Echo 设备。原因如下。 亚马逊 Echo Dots、Google Home 扬声器和 Apple 的 HomePod 等设备会监听唤醒词 — “Alexa”、“嘿,Google”或“嘿,Siri”。理想情况下,只有当它们听到家里有人说这些词或短语时才会被唤醒,而这些人确实想使用语音助手做某事,比如查看天气。系统需要避免误报。 以亚马逊为例,在超级碗广告(以及电视上人们说“Alexa”的其他时刻)中,该公司使用一种称为“声学指纹识别”的策略来试图阻止您的设备触发。对于公司制作的广告,可以提前创建指纹并对 Alexa 系统进行编程以忽略这些情况。亚马逊的机器学习科学家 Mike Rodehorst 在一篇博客文章中表示:“当我们提前获得音频样本时——就像我们对超级碗广告所做的那样——我们会对整个样本进行指纹识别并存储结果。”然后,亚马逊可以将这些信息和其他广告的指纹放在 Echo 设备上,而不是放在云端,所以希望您的设备根本不会被唤醒。 卡内基梅隆大学名誉教授、语音处理领域专家亚历克斯·鲁德尼基 (Alex Rudnicky) 表示,一般来说,音频指纹是“一个连续的序列”。他说:“声音会随着时间的推移而发展;这一事实是构成声音身份的一个关键方面。想象一下有人慢慢地说出“Alexa”这个词,想象一下他们说话时声音的变化。因此,声学指纹是一系列相互重叠的片段,可能每 10 毫秒开始一次,他说。(亚马逊在其博客文章的第四段中对他们的方法进行了更技术性的解释。) 亚马逊的罗德霍斯特表示,当他们处理云端的他们所了解的商业广告中的此类信息并试图避免那些误报时,他们还可以使用“唤醒词之后的音频”,这意味着有更多的数据可供使用。 指示亚马逊设备忽略公司自己制作的商业广告中的特定声音指纹可能比处理电视上以自然、出乎意料的方式使用“Alexa”这个词的角色更简单。 在这些情况下,在云端,公司可以利用许多设备同时听到同一个“Alexa”的事实。例如,1 月底,斯蒂芬·科尔伯特 (Stephen Colbert) 在“午夜告白”中说:“Alexa,买 20 包 Bounty 纸巾,隔夜送达!”在这种情况下,一个“Alexa”击中多个设备可以帮助公司(希望)意识到发生了什么,并阻止 Alexa 真正订购这些纸巾。它可以存储这些信息,以防止 Echo 设备在稍后重播相同片段时被唤醒;我尝试大声播放相同的科尔伯特片段,我的 Echo Dot 在听到唤醒词后短暂醒来,然后关闭。 亚马逊还表示,它可以使用其他策略来避免电视发出的“Alexa”唤醒您的设备。例如,由于您的电视不会在房间内移动,但您可能会移动,因此它可以考虑音频到达设备上各个麦克风的时间。“声音当然会比到达较远的麦克风更快到达较近的麦克风,因此到达时间差指示了声源的距离和方向,”另外两名亚马逊科学家在去年的一篇博客文章中写道。 卡内基梅隆大学的鲁德尼基评论说,亚马逊“正在想办法避免犯错,我喜欢这一点”。 亚马逊并不是唯一一家开发出能够被电视或电脑上的媒体欺骗的语音助手的公司;然而,苹果和谷歌都没有对他们对这个问题的处理方式发表评论。 |
借助高倍显微镜工具,如今可以以前所未有的高分辨率详细观察多种古老而灭绝的缓步动物(又称“水熊”)。研...
2300 万年前,南极冰盖开始萎缩,面积从现在的一半缩小到现在的一半。计算机模型表明,二氧化碳水平的...
我们喜欢买工具,但它们很快就会变得昂贵。当我们在五金店购物完毕时,已经没有钱买材料或三明治,坐在卡车...
本周,环保新闻头条不顺(有人知道新的“生命星球”报告吗?)。现在,一个国际研究团队的新评论又为头条新...
正值这个恐怖季节充满糖果的结局之际,查普曼大学发布了其 2024 年年度美国人恐惧调查。连续第九年,...
卡尔与神秘塔 - 令人着迷的动画短片世界■作品概要《卡尔与不可思议的塔》是改编自寺田顺三的绘本的电视...
人类股骨启发了一种新型水泥基建筑材料,其强度是传统混凝土的数倍。但这种类似骨头的设计并非通过任何新添...
太空部队的六个徽标概念。太空部队6 月,唐纳德·特朗普总统呼吁成立美国第六军种。除了陆军、海军、海军...
暴风雨和强风会迅速切断您的电力供应,而您甚至来不及问:“那是霰吗?霰是什么?!?”亚马逊上有 Jac...
考古学家的日常工作就是从我们留下的东西中挖掘故事。地球上的财物和文物可以让我们一窥古代文明甚至现代生...
2015 年 7 月 10 日,一块体积相当于 9 个奥运会标准游泳池的悬崖从 67P 彗星上掉下来...
裸帽的吸引力和声誉《赤裸的帽子》是一部时长两分钟的短篇动画电影,于2004年8月在NHK教育电视台(...
Mymanu CLIK S:屡获殊荣的翻译耳塞将通过为您带来优化的聆听体验和尖端的翻译能力,从而增强...
内华达州是美国唯一的主要锂矿产地。Pixabay一代人以来,美国创新的前沿都存在于硅谷的车库和办公园...
这是你在自然历史教科书或博物馆中看到古代人类亲属时首先注意到的事情之一。眼睛上方有一个令人印象深刻的...