观鸟者大饱眼福:康奈尔大学的 Merlin 应用程序现已成为鸟类识别的一站式商店

观鸟者大饱眼福:康奈尔大学的 Merlin 应用程序现已成为鸟类识别的一站式商店

去年,随着疫情封锁限制措施在美国实施,新的鸟类爱好者纷纷涌向免费的 Merlin Bird ID 应用程序。这款由康奈尔鸟类学实验室开发的应用程序之前曾允许用户通过描述或照片来识别附近的神秘鸟类。今年夏初,它又增加了一项更酷的功能:能够根据鸟鸣、鸣叫或叫声的短音频片段来识别鸟类。

从 2020 年 3 月开始,Merlin 团队发现应用程序下载量有所上升,这一趋势一直持续。“我们不仅获得了更多的下载量,而且活跃用户的数量也在持续增长,”Merlin 的项目协调员德鲁·韦伯 (Drew Weber) 说。今年春天,有 120 万人(并且还在增加)使用 Merlin。“人们正在下载它,了解鸟类,尽管封锁等现实正在发生变化,但今年他们仍然对鸟类感兴趣,”他说。“它似乎激起了他们的兴趣,并保持了他们的兴趣。”

此时,鸟类新闻正在飞速传播,尤其是在纽约市,一些珍稀鸟类已经上升到名人地位。 《纽约时报》上刊登了横斑林鸮和雪鸮的报道,2018 年《纽约杂志》对鸳鸯进行了报道,仿佛它是下一个值得了解的鸟类影响者。

声音识别功能于 6 月在 Merlin 上首次亮相,并已收到观鸟界的积极响应。新的声音识别功能现在与基于机器学习的照片识别工具一起推出,该工具于 2015 年左右向用户推出。

“在声音识别发布之前,我认为我们收到的最大反馈是‘我以为你可以用这个应用程序通过声音识别鸟类!’或者‘鸟类的 Shazam 在哪里?’因此,真正将它提供给人们真的很酷,”韦伯说。

还有其他一些通过声音识别鸟类的方法,包括 Bird Genie、Song Sleuth 和 Smart Bird ID。许多方法都使用基于机器学习的算法,但由于背景噪音和鸟叫声的个体差异,结果的准确性可能会有所不同。

Merlin 已经是一款成熟的鸟类指南应用。除了更先进的工具外,它还提供了常规目测识别的演练流程,这对鸟类初学者来说很有用。

Merlin 声音 ID 的工作原理如下

通过 Merlin,观鸟者可以打开手机的麦克风,让它聆听周围的环境。然后,该应用程序会提示鸟儿在唱歌或叫什么。该应用程序拾取的音频也会转换成视觉模式表示,即频谱图,它可以捕捉声音的振幅、频率和持续时间。

“一旦你有了树上真实鸟的图像或频谱图形式的音频特征,你就可以使用强大的计算机视觉工具开始构建模型来识别这些模式,”Merlin 项目首席研究员 Grant Van Horn 说。

除了声音识别外,使用该应用程序识别鸟类的其他方法还包括手动输入其身体特征和上传照片。

公民科学的巨大壮举

人工智能系统需要数据,当然,数据首先需要存在。

在这种情况下,该项目需要一些严肃的公民科学。如果没有鸟类学实验室的麦考利图书馆数据库,照片 ID 功能和较新的声音 ID 选项就不可能实现,该数据库包含近 3000 万张存档和带注释的鸟类照片以及鸟类社区上传的 110 多万个声音片段。

随后,一个团队开始将媒体转化为有用的工具。他们于 2012 年开始构建 Merlin 照片 ID 组件,当时计算机视觉技术正在取得进步。“我们知道,如果我们能够收集数据,我们就可以利用这些工具构建一个非常有用的功能,让某人拍摄一张照片,然后让计算机告诉他们照片里有什么,”范霍恩说。到 2015 年,该实验室能够让公民科学家将照片和音频上传到不断增长的收藏中。自从照片 ID 组件在应用程序上推出以来,它不断得到改进,增加了更多照片样本,并扩大了南美、非洲、亚洲和欧洲新地区的物种覆盖范围。“只有当你拥有这个可以在其上构建的良好数据基础时,机器学习才能很好地发挥作用,”范霍恩解释说。

麦考利图书馆收集的音频和照片来源于实验室运行的另一个项目,即 2002 年启动的 eBird。eBird 应用程序允许世界各地的公民科学家和当地组织记录和分享鸟类观测情况,包括与研究和绘制鸟类种群的科学家分享。

“由于我们花了很长时间来收集这些数据,所以我们非常清楚,如果你在 7 月 19 日来到纽约,你可能会遇到哪些物种,”范霍恩说。“这类信息确实有助于我们进行声音识别和照片识别,因为它让我们能够立即解决 450 个物种的问题,即声音识别,8,000 个物种的问题,照片识别,并帮助我们将范围缩小到 40 个真正需要考虑的物种。”

音频识别组件的进展比图像识别要慢,“因为外出记录鸟叫声并不像外出拍照那么流行,”范霍恩说。“但可以肯定的是,在过去三年左右的时间里,北美已经相当密集地覆盖了音频记录。”

去年这个时候,该团队认为他们拥有足够的音频数据,可以开发和推出针对美国和加拿大流行物种的声音识别功能。他们开始梳理所有数据并挑选物种。

然而,背景噪音问题仍然是工程团队面临的挑战。为了解决这个问题,他们转向了现有的音频数据。这些音频数据集可能是交通场景、城市环境和机器噪音——不是鸟类发出的正常声音。“我们会将这些音频转换成声谱图,并将其用作‘这不是鸟;任何时候你看到这个,你都不应该报告鸟类’的反面例子,”范霍恩补充道。“这是一种平衡,既要建立高质量的鸟类数据集,又要加强非鸟类噪音的良好数据集,我们可以向机器展示并教它什么鸟听起来不像。”

[相关:如何在美国任何城市开始观鸟]

接下来是更多的工作。由于项目的成功取决于数据集的高质量,这意味着韦伯和范霍恩必须组织和招募鸟类观察界的资深专家来帮助他们查看数据库中的原始音频文件并标记录音中的物种。

“在构建我们首次发布的数据集时,我想我们花了大约 2,000 个小时进行注释,绘制鸟儿鸣叫的位置以及各种鸟儿鸣叫的位置,”韦伯说。“这主要是由许多输入这些 eBird 数据和观察结果的人自愿完成的。”

2014 年,该应用程序首次推出时,只记录了美国和加拿大最常见的鸟类。2016 年,首批国际标签发布,首先是墨西哥和哥斯达黎加,然后扩展到欧洲、澳大利亚、新西兰、非洲和亚洲部分地区。“我们仍然看到,大约 75% 的新活跃用户来自美国和加拿大,”韦伯说,但世界各地记录的新物种数量正在不断增加。

随着全球用户继续向 eBird 数据库提交目击事件,新的目击事件被纳入 Merlin 应用程序,研究团队也因此了解了哪些物种何时何地出现。“我们不断更新应用程序中每种物种的照片和声音,以便不断改进 Merlin 展示的内容,”Weber 补充道。

[相关:看看鸟儿如何改变它们的曲调以适应周围环境]

韦伯指出,他们收到的一些最令人惊讶的反馈来自听力障碍的用户。“他们对实时视图和能够直观呈现鸟鸣声的频谱图感到非常兴奋,”他说。“无论是听力一直不佳的人,还是随着年龄增长而失去高音的人,很多人都对能够在某种程度上恢复部分听力损失感到非常兴奋。”

该团队仍在努力完善该应用程序并整合用户的反馈。通过与当地社区和组织合作,范霍恩认为他们可以构建各种有用的工具,帮助人们在户外获得更有趣的体验,尤其是与当地鸟类相处。“这是人类和机器成功的故事,”范霍恩说。“人类在这个拼图中扮演着重要的角色。”

<<:  我如何将我的奔驰车改装成使用植物油的

>>:  驾驶一架 11,500 磅重的实验直升机是什么感觉(没有任何经验)

推荐阅读

古代农耕方式或能帮助人类在火星生存

美国宇航局制定了太空农场的宏伟计划,天体生物学家也提出了许多关于在火星上种植什么作物最好的想法。为了...

2021 年最具创新性的个人护理产品

我们充分利用居家时间的第二年已经推出了无数产品,承诺可以舒缓我们紧张的身心。但围绕这些领域的营销(化...

年度野生动物摄影师奖中的 11 个令人难忘的场景

农历新年的一个寒冷清晨,一只鬼鬼祟祟的兔狲正准备以刚捕获的鸟作为早餐。就在那一刻,朱兴超拍了一张照片...

电气化建筑如何应对能源峰值?

在美国,建筑物是一个巨大的能源负担。约有 7000 万美国家庭和企业燃烧化石燃料用于空间供暖、水暖、...

我们为什么不能长到10英尺高?

我们都知道,有些家庭里住着身材高大的篮球运动员,而有些家庭里住着身材娇小、体格健壮的人,他们最适合从...

观看比尔·奈对反科学推文的回应

比尔·奈伊 (Bill Nye) 已经向公众普及科学知识 20 多年了。事实上,一部关于他的新纪录片...

这款蛋形安保机器人正在医院巡逻

医院大厅是一个度过下午的奇怪地方。无论何时,空气中都弥漫着集体的焦虑和期待。这里也异常繁忙。身穿蓝色...

亚伯拉罕·林肯如何开发现代战争技术

在士兵们遭遇残酷死亡的镜头和莎莉·菲尔德扮演史上最完美的玛丽·托德·林肯(也许除了 MTL 本人之外...

向日葵如何从花园新奇植物变成强大的野兽

如今,向日葵田在世界各地随处可见,而且非常美丽。从梵高到克里姆特,向日葵田激发了无数艺术家的灵感。在...

火车八右卫门:D51 的大冒险:深入回顾引人入胜的故事和人物

《火车八右卫门:D51号大冒险》——一部融合怀旧与现代感的动画电影■ 公共媒体剧院■ 原创媒体图画书...

我们可能知道是什么让缓步动物如此坚强

缓步动物是地球上最顽强的动物之一。这些微生物通常被称为“水熊”,它们可以在极端温度、没有水或氧气的环...

Android 大脑的倒计时正在进行中

人类大脑计划 (HBP) 是一项惊人的科学事业,是一项跨国、多学科的计划,资金超过 12 亿欧元,目...

Twitter 即将向无密码未来​​迈出一大步

现在,你无需密码即可登录 Twitter。该公司即将进行的更改将允许用户仅使用安全密钥登录。这在便利...

减少空气污染物的方法之一:叫 Uber

美国根深蒂固的汽车文化。截至 2020 年,该国注册车辆超过 2.86 亿辆。与此同时,美国大部分地...

看看这幅标志性画作的 100 亿像素 3D 全景图

https://www.youtube.com/watch?v=cKaZYTwmjwU绘画是有纹理...