人工智能将如何为盲人翻译 Facebook 照片

人工智能将如何为盲人翻译 Facebook 照片

尽管人们很容易纠结于人工智能的潜在威胁,但更多时候,该领域承诺让人类的生活更加美好。人工智能算法旨在帮助我们与朋友联系、查找信息,甚至帮助我们穿越现实世界。

从今天开始,Facebook 将使用人工智能自动为 Facebook 上的每张照片生成文字说明,为盲人或视障人士提供急需的无障碍服务。

因为开发人员希望人工智能生成的文本极其准确,所以他们用 100 种不同类型的物体的图像对其进行了密集训练,所以目前它仅限于识别人类披萨棒球等,但随着研究的进展,字幕将变得越来越多样化和复杂。

视力受损者经常依靠屏幕阅读器来浏览互联网,屏幕阅读器会将文字口述到屏幕上。但是,屏幕阅读器的效果取决于它们能够阅读的内容。如果缺少文字,它们就无法阅读。网络标准规定,图像应该有一个称为替代文本的字段,用文字描述图像所描绘的内容。但是,在大多数 Facebook 图像上,屏幕阅读器唯一可用的文本是与照片一起发布的状态。

通过应用人工智能算法,Facebook 能够扫描每张图片并提取一些关于其内容的信息。如果有人上传了一张披萨图片,算法将能够自动将“披萨”一词放入图片的替代文本中,这样屏幕阅读器就可以告诉用户。该社交网络 15 亿用户中的大多数都看不到这些说明,但对于那些在日益视觉化的平台上看不到照片的人来说,这标志着一种转变。

Facebook 正利用这一机会使其研究方式更加民主化。该公司的无障碍和人工智能团队将获得用户的反馈,并利用这些反馈指导进一步的研究。今年 3 月,Facebook 与康奈尔大学联合发表了一项研究,探讨盲人如何使用 Facebook,希望打造一款满足社区需求的产品。

“应该以人们的需求为驱动力来推动研究,而不是以我们研究出的东西为驱动力来推动使用,”Paluri 说道。“反馈让我们能够进行更多调查。”

识别和描述图像的挑战是人工智能领域一个突出的研究类别。新技术和硬件正在实现深度学习,利用多层人工神经网络或模拟大脑神经元的微小数学方程簇来对数据进行分类并寻找模式。这些技术可以应用于图像、音频、文本或几乎任何类型的数据。在图像中,猫的照片中的图案与海豚的图案不同。

但单个物体很简单。当物体之间相互作用,或者当某个动作有背景时,情况就困难得多,因为机器需要真正了解物理世界,并知道物体之间的关系。对于一个天真的机器来说,没有重力、家庭关系或爱。只有数据。

因此,要理解父亲和女儿正在远足小径上行走,或者猫在床上,机器必须首先了解物理世界。

这也正是 Facebook 无障碍团队所需要的。目前,他们有这些可识别的对象,称为标签。标签是一只猫,标签是一张床,标签是一个人。有了这些信息,他们就可以说照片中有四个人拿着冰淇淋蛋筒,或者一个披萨饼。

“我们的目标是让它描述的内容远不止标签。标签如何互动?标签之间的关系是什么?”Paluri 说。“不只是说‘猫’和‘床’。你想说‘猫在床上’或‘猫跳过床’。所以这是一个起点。”

从很多方面来说,这都是一个起点。该团队不仅梦想着实现更多基于上下文的物体识别,而且还希望使识别更具交互性。Paluri 提出了一个潜在功能,用户可以点击图像的不同部分来听到特定信息。

但就 Facebook 的业务规模而言,精度必须放在首位。每天,Facebook、Instagram、Messenger 和 WhatsApp 上都会分享 20 亿张图片,因此即使 1% 的误差也可能意味着数百万个错误。工程师们根据正确分类物体的重要性,手动调整了算法可以检测到的大约 100 个概念中的每一个。例如,算法需要对性别之类的东西比物体是否是披萨更加确定。它可以从 100 个物体库中识别出物体,置信度从 80% 到 99%。Facebook 表示,它可以在 Facebook 上超过 50% 的照片中识别出至少一个物体。

机器能够理解的大多数概念都是关于人和物体的。它知道眼镜、棒球,甚至自拍。然而,据 Paluri 称,有些概念是团队故意没有加入的。其中包括某些动物。

人工智能系统所犯的错误,尤其是在对图像进行分类时,可能会具有文化敏感性,例如去年谷歌的照片应用将黑人标记为大猩猩。为了避免这种情况,“我们希望从我们非常有信心并且有很多积极反馈的地方开始,”Paluri 说。

信心也可以是无害的。Paluri 提到了猫爪。

“角落里可能有一只猫爪。图片里还有一只猫吗?这是一个悬而未决的问题,”他说。“也许这幅图就是关于爪子的,这就是它有趣的地方。”

研究可以朝很多方向发展,包括尝试检测幽默。但无论如何,任何改进都将依赖于更好的算法,这些算法是根据真实人类的需求而制定的。人工智能的前景是让人类的生活更轻松。我们正在将大脑中可以取代机器的部分外包出去。通过使用软件来增强我们自己,世界将变得更加容易接近。

该功能目前已在 Facebook 的 iOS 应用程序上推出,并将很快推广到其他平台以及英语以外的其他语言。

<<:  你对 Amazon Dash 的看法完全错误

>>:  全球最亮的 X 射线激光器将耗资 10 亿美元升级

推荐阅读

5 个 Google 搜索技巧助您获得最准确的搜索结果

当你需要在网络上查找某些内容时,Google 是首选目的地——动词“google”甚至被收录进词典。...

如果它对宇航员来说足够好,那对我们来说也足够好

1986 年,电影《太空营》上映,冻干冰淇淋在全国风靡一时。这些小包装的那不勒斯冰淇淋轻盈干燥,随处...

《我不红都是你的错!》的号召力与评价:宅文化的写实描绘与幽默元素

“无论你怎么看,我不受欢迎都是你的错!”——一部描绘青春真实痛苦和欢笑的杰作动画“无论你怎么看,我没...

《多重订单餐厅》评论:独特的故事和人物

《无数点单的餐厅》:通过动画展现宫泽贤治的世界观《无数订单餐厅》于 1958 年 11 月上映,是一...

为现代世界提供动力的古老森林

以下摘录自Hope Jahren 所著的《莫尔的故事》。从前,有一片广阔无垠的海洋。海浪之下,海流翻...

你现在需要设置的 7 个基本 Google 快讯

本文已更新。最初于 2019 年 10 月 22 日发布。在所有的 Google 产品中,Googl...

美国最终将生产不含草甘膦的 Roundup

美国房屋业主很快就必须采用不同版本的 Roundup 来除草。拜耳最近宣布,将在 2023 年改变用...

打架猴子导致斯里兰卡全国停电

多年来,斯里兰卡一直在努力应对电网问题,而猴子的出现更是雪上加霜。当地时间周日上午 11 点左右(美...

波兰开发液体防弹衣

液体非常善于吸收子弹的能量。在水下发射时,AK-47 只能将子弹向前发射几英尺,而在空中,同样的子弹...

科学家称狐狸利用地球磁场捕食猎物

狐狸似乎利用地球磁场来追踪猎物,显然是唯一利用磁场来判断距离和方向的动物。美国和德国的两位研究人员认...

我们在创造可再生能源方面做得很好——但我们没有实际利用可再生能源的基础设施

美国的风能和太阳能发电量一直在缓慢但稳步地增长。存款照片上周,一些罕见的积极环保消息进入公众视野:美...

图表:食物浪费对环境的危害有多大

人类非常擅长浪费食物。有些食物因为尺寸太小或形状怪异而被农场丢弃。有些食物我们任其在运输容器中腐烂,...

让这个人工智能机器人把你的文字变成模糊可识别的图片

人工智能已经以各种方式影响了我们的生活,比如帮助你开车、美化我们的 Instagram 美食照片,甚...

本周我们了解到的最奇怪的事情:魔法石的粪便、我们如何毁掉野牛以及你被告知的关于普通感冒的谎言

本周你学到的最奇怪的事情是什么?好吧,不管是什么,我们保证如果你听 PopSci 的热门播客,你会得...

芭蕾舞与故事叙述的融合

芭蕾公主——梦想与芭蕾的故事《兔兔公主》是 2002 年至 2003 年播出的电视动画系列,是伊藤郁...