绘制恐怖之声

绘制恐怖之声

去年 11 月对奥萨马·本·拉登录音带的判决分歧不仅仅是美国和欧洲在基地组织威胁问题上又一次出现分歧,更是一场围绕法医语音分析或声纹技术未来发展而展开的激烈战争的序幕。

11 月 12 日,独立阿拉伯语电视台半岛电视台播出了一段据称接到本·拉登电话的录音,在录音中,这位基地组织头目赞扬了最近的恐怖袭击,并承诺今后还会有更多恐怖袭击。美国​​中央情报局和美国国家安全局立即向他们的语音分析师求助。我们不知道这个绝密机构美国国家安全局究竟使用了什么工具,但该机构的专家很可能像私营部门的同行一样,接受过通过比较声谱图来分析语音的培训,这是一种自 1940 年代以来几乎没有变化的图形语音渲染方法。想象一下刻在纸带上的潦草墨迹,你就知道他们在研究什么。

电视台向独立但与机构有联系的专家寻求自己的判断:这盘录像带是真的吗?几天之内,结论就出来了:本·拉登还活着,而且正在密谋。

在大洋彼岸,瑞士的 IDIAP(Dalle Molle 感知人工智能研究所)使用生物识别软件对录音带进行分析。研究所的计算机将问题归结为算法得出的决策边界上“非本·拉登”一侧的亮绿色数据点。瑞士分析附带了一个限定词,即这项研究的动机是“纯粹的科学好奇心,看看我们最先进的说话人认证系统会得出什么结论”。瑞士生物识别程序认为,该声音是冒名顶替者的声音的可能性为 55% 到 60%。充其量是模棱两可的,但足以给美国的判决泼冷水,并暗示给传统的法医声音识别方法泼冷水。

回到新世界,老派对此并不感冒。

为了告诉我为什么,汤姆·欧文
北美最忙碌的法医语音分析师之一——也是美国录音证据委员会认证的仅有的八名分析师之一——邀请我到他位于新泽西州科洛尼亚的地下声音实验室。美国各大电视网都向欧文寻求核实政府关于本·拉登录音带的说法。在我访问的那天下午,欧文刚刚为一群沙特情报官员讲完一堂为期一个月的语音识别课。巧的是,去年 11 月欧文收到本·拉登录音带进行分析时,沙特内政部法医部门的一名上尉正好在场。翻译不是问题。

欧文曾是纽约林肯中心的音响工程师,20 世纪 80 年代,他开始涉足法医领域。当时,一名纽约警察局的侦探来到他的录音室,手里拿着一份“脏”的炸弹威胁录音。欧文清理了背景噪音,就像他清理过无数张从恩里科·卡鲁索到狄昂·华薇克的歌手的老录音一样。这让他对法医工作产生了兴趣。

欧文隔音地下室的墙壁上摆满了从地板到天花板的频谱分析仪、信号处理器、均衡器、混频器、放大器和录音回放系统。但正如法医界常见的情况一样,这位大师最喜欢的工具仍然是一件老式设备——一台 1973 年制造的卷带式语音识别 700 光谱仪。它与美国陆军情报官员在二战期间为识别和追踪德国无线电操作员而制造的模拟机器几乎没有什么区别。

在我到达之前,欧文已经启动了机器,整理出 1998 年 ABC 新闻对本·拉登的采访的声谱图,这是欧文认为 100% 可靠的少数基地组织头目声音样本之一。机器的触针将本·拉登声音的声能转换成声纹,将数据刻在附在机器旋转鼓上的纸条上。

通过查看声纹,我可以轻松辨别出每个音节发出的刺耳的条形共振峰或语音频率。这些模糊的声音就像是八线拍子上堆叠的众多方形音符。欧文解释说,人类的声音不会发出单个音符,而是和弦或泛音。

欧文递给我一张半岛电视台 11 月广播的声谱图。从上到下,从头到尾,纸带上布满了黑线。在欧文的指导下,我想我可以看到下面的共振峰条,它们几乎被背景噪音和广播载波信号的黑纱遮住了。欧文坚持认为,生物识别程序永远无法筛选出噪音。“它们的设计初衷是处理完美的样本。”他说,清理磁带也不行。“如果你只是想更清楚地听清他说的话,那没问题。但清理背景噪音会消除我进行识别所需的高频和低频。”他说,生物识别系统需要同样的频率,虽然他相信美国国家安全局已经获得了他不知道的本·拉登的声音样本,但他不相信该机构在分析方面取得了生物识别方面的突破。

“我确实知道他们拥有 FBI 和 CIA 没有的东西。但他们的技术主要用于监听,”欧文说。

欧文的录音方法有多准确?录音带不仅很脏,而且 11 月的录音带和 ABC 的采访中只有六个词是相同的。(美国录音证据委员会的标准要求,至少有 20 个相同的词——最好是按相同的顺序说出来的——才能确认语音识别。)

欧文指出,检查声谱图只是他工作的一半。他的工作是聆听每个声音中各种古怪的习惯和发音缺陷。训练有素的耳朵可以检测到因牙齿缺失而产生的细微口哨声、说话时吞咽的习惯,甚至是说话时下巴的张合方式。

欧文给我播放了他所谓的短期记忆磁带,这是听觉或耳朵识别声音的关键工具。这盘拼接磁带在 ABC 采访本·拉登的 2.5 秒片段和半岛电视台的刺耳广播之间切换;欧文所听的内容——声音识别所基于的内容——是声音表达共振峰结构(尤其是元音)的方式的特殊性。“同一个人,”欧文说。他坚持认为本·拉登的声音非常奇怪,但拒绝详细说明这些声音怪癖,以免给冒名顶替者提供路线图。

在我这个外行的耳朵看来,静电噪音的背后可能是达斯·维达。这一切似乎有些难以言喻——这是艺术与科学的结合,只有全国八名受认可的专家能理解。这种灰色地带往往会让法律观察家担心法医科学的现状。

“我经常看到有人被错误指控拨打威胁电话的案例,”密歇根州退休侦探 Lonnie Smrkovsky 承认,他是法医音频分析的先驱。“我认为,在某个时候,我们必须找到一种完全自动化语音识别的方法。”

早在 20 世纪 80 年代,斯莫科夫斯基就热心地为洛杉矶县警局提供专业知识,帮助他们实现这一目标。该项目由国家司法研究所资助,但两年后就失败了,因为 DNA 分析等更有吸引力的项目吸走了联邦资金。

但当美国企业看到声控银行和信用卡账户以及基于语音的安全系统的潜力时,它们就投入了大量资金来解决这一问题。Nuance Communications 是声纹技术的商业领导者,该公司的语音研发总监 Larry Heck 表示,过去十年取得了巨大进步。“我们已经有了测量人声物理特征的算法,”他解释道。“但我们仍在研究行为方面的东西。”

换句话说,一个好的生物识别程序可以很好地完成人类声音的频谱分析——这是人类专家评估的前半部分。这足以识别某人对着高质量麦克风重复自己名字的干净样本。在理想情况下,最好的生物识别说话人验证系统的错误率低于 0.5%。当样本很脏时,问题就出现了。

这又让我们回到瑞士对据称是本·拉登的广播的分析。IDIAP 是一家国际知名的生物识别研究所,它使用 15 段经过验证的录音校准了其语音识别软件,使其能够识别基地组织头目的声音。随后,研究人员将该程序的准确性与另外 15 段经过验证的本·拉登录音和 16 段其他阿拉伯语人士的录音进行了对比。后者包括两段录音,其中有人故意模仿经过验证的录音的部分内容。用于调整和测试系统的录音质量从好到一般到差不等。

该系统正确地排除了所有 16 个“非本·拉登”的录音,包括本·拉登的模仿者,并错误地排除了 15 个经过验证的录音中的 1 个——成功率为 97%。它通过在由是或否决策边界平分的图表上生成数据点来对每个判断的确定性进行排序。(距离平分线越远,决策在数学上越确定。)最后,它对有争议的广播的分析产生了一个数据点,正好位于决策边界“非本·拉登”一侧;因此,该声音不是基地组织头目的概率为 55% 到 60%。

IDIAP 总监 Herve Bourlard 承认,该系统还有很长的路要走。“有些方法可以迷惑说话人验证系统,但不会迷惑人耳,”他说。“另一方面,有些人可以通过模仿声音来欺骗人耳。但他们永远无法迷惑计算机。”
布拉德表示,目前生物识别技术应该作为法医语音专家的补充,而不是替代。但他毫不怀疑,在许多情况下,计算机将超越训练有素的人耳。

“我不知道还需要两年还是五年,”他说,“但我们一定会实现这一目标。”

<<:  极限救援的危险艺术

>>:  机器人潜艇投入战斗。第 2 部分:海军的 AUV

推荐阅读

《Rokumon Tengai Moncolle Night》的魅力与评价:不容错过的动漫体验

《Rokumon Tengai Moncolle Night》——一部根据怀旧纸牌游戏改编的电视动画...

接受挑战:根据药物化合物目录做晚餐

几乎每个称职的化学家都知道默克指数。默克指数于 1889 年首次出版,是一份关于化学品、其物理性质及...

最新的月球机器人将像网球一样滚动

如果一切按计划进行,一个网球大小、仿照儿童玩具设计的机器人将很快作为日本首次软着陆月球的一部分,对月...

无人机周评:蒙大拿州击落无人机、FBI 的机器人任务等等

以下是本周无人机热门新闻汇总,旨在捕捉无人机的军事、商业、非营利和娱乐应用。伊朗巡逻伊朗国家通讯社法...

如何构建一个你真正会使用的袖珍工具包

我们生活在袖珍小工具的黄金时代。几年前,爷爷只能用一把能打开酒瓶的小刀,但从那时起,计算机辅助设计 ...

《动画忍者杀手》的魅力与评价:不容错过的动作大片

揭秘“动画版忍者杀手”的完整故事《Ninja Slayer From Animation》是 201...

棒球棒击球最佳位置的物理原理

木制棒球棒有一种浪漫的感觉,但挥动它之后,这种感觉就消失了。对于那些不想进入大联盟的人来说,使用木制...

这套巨型机甲套装售价 300 万美元

一家由 25 岁发明家 Ryo Yoshida 监督的日本初创公司现提供五款能够在机器人和车辆模式之...

远洋机器人登陆澳大利亚,完成 9,000 英里的自主太平洋穿越

去年 11 月,Liquid Robotics 将四台全新的 Wave Glider 机器人投放到旧...

观看:三只白头鹰随时可能孵化

所有人的目光都集中在两位新的鸟类网络名人和它们位于南加州的温馨家园上。三只白头鹰幼雏随时可能从它们位...

未来的自组装、自修复材料是……血液

此时此刻,你体内的某个地方,一层脆弱的膜正在撕裂。现在出现了渗漏,原本不应该通过膜的液体正从撕裂处喷...

如何收听 Spotify 的海量有声读物库

您可能知道 Spotify 是一项音乐流媒体服务,但您可能不知道它的有声读物产品有多强大。在撰写本文...

英国停车场下发现理查三世国王的遗骸

英国最受唾弃的国王、短命的君主理查三世——约克王朝的最后一位君主、金雀花王朝的最后一位君主、玫瑰战争...

《平灿和小熊》:探索迷人角色和故事的深度

平灿和小熊 - 平灿和小熊概述《小熊和小熊》是1935年上映的日本动画电影,该作品由深田商会电影分部...

终止开关将拯救你的智能手机

在一个原本普通的星期六,有人从克里斯汀·斯沃茨的健身房储物柜里偷走了她的 iPhone。起初她很恼火...