Shutterstock 训练计算机帮你找到完美的照片

Shutterstock 训练计算机帮你找到完美的照片

我在想象一辆自行车停在栅栏旁边。这是欧洲某座城市,街道狭窄,铺着鹅卵石,栅栏前面是一栋古老的砖砌建筑。自行车闪闪发亮,呈蓝色,还带着一个篮子,有点老式。你看不到天空,但可以看出这是一个阳光明媚的日子。

我不可能在互联网上找到类似这样的场景的图片。当然,我可以输入诸如“欧洲围栏旁的蓝色自行车”之类的关键词,如果我幸运的话,它会显示一些与之相关的结果。如果我碰巧已经有这样的图片,我找到的机会会稍微大一些——这样,我就可以进行反向图像搜索,并且可以爬取不仅限于英语的网站。但结果往往看起来很奇怪,感觉不对劲,或者缺少我脑海中场景的关键组成部分。

计算机仍然无法读懂我们的想法。但图片库网站 Shutterstock 已经创造了一种全新的图片分类方式。该公司的新工具今天在其网站上发布,是计算机视觉这一新兴但发展迅速的领域的众多创新之一。Shutterstock 希望它可以将你头脑中图像与屏幕上图像进行匹配的烦人过程变成一件真正有趣的事情。

一张图片胜过千言万语

在网上很难找到合适的图片,因为大多数搜索引擎都依赖关键词。例如,如果用户将自行车图片上传到 Shutterstock 网站,她会提供所有关键词。如果她上传了一批相似的图片,其中一些关键词可能与每张图片都不相关。

Shutterstock 搜索和发现工程副总裁 Kevin Lester 是新计算机视觉工具的工程师之一,他表示:“所有这些关键词组合在一起可能会显得很奇怪——这是将媒体视为词袋时固有的问题之一。”

因此,许多图像数据库利用用户行为来填补这些空白。如果搜索“自行车”和“栅栏”的人更频繁地下载特定图像,那么该图像可能包含这两个词。莱斯特说,这是一个简单的概念,但它仍然不完善。

计算机视觉可以改变这一切,因为它首先消除了对关键词的需求。使用一系列算法,模型可以逐步调查图像中的每个像素,以找出其中的不同特征——颜色、形状、角度的锐度。每个计算都是深度学习网络的一层。在这个过程结束时,程序会生成一个数字,即一个向量。如果模型很好,数字越相似,它们量化的图像就越相似。模型会训练自己识别这些特征,因此输入的图像越多,模型就越好。

作为一个领域,计算机视觉实际上自 2012 年才开始出现,当时多伦多大学的三位研究人员发表了一篇论文,该论文被认为是该学科的分水岭时刻。

然而,在短短四年的时间里,计算机视觉已成为许多科技公司的关键。Facebook 的模型可以识别图片中的人脸,准确率超过 97%;谷歌的模型可以解决那些 CAPTCHA 难题(旨在剔除机器人来验证用户是否是人类),准确率高达 99%。

计算机视觉模型可用于多种不同的应用,但通常针对特定任务进行训练。Shutterstock 使用它来检测视觉上相似的图像并进行反向图像搜索。

像电脑一样观看

人们在 Shutterstock 网站上发现图片的主要方式之一是这种称为“视觉相似”的类别。当您单击某张图片时,它们就会出现在底部。就像这样:

如果系统依赖关键词,它返回的图像有时相关,有时不相关。它不一致且不稳定。对于 Shutterstock 的第一个计算机视觉模型,工程师使用了 2012 年论文中首次概述的示意图,并对该网站的 7000 万张库存图像进行了训练。即便如此,它也不是很好。

“我认为没有人会认为它们极为相似,除了色调似乎有些一致,”莱斯特说。

工程师们对模型进行了调整,然后花了数周时间对数据进行重新训练,以了解图像的特定特征。结果模型变得更好了:

经过了几次迭代,但该工具的最终版本的结果如下:

通过内部测试,Shutterstock 表示,他们新的视觉相似度工具比过去依赖关键词的工具要好得多。现在,每当有人点击他们网站上的图片时(这种情况经常发生——该公司每秒售出 4.7 张图片),算法就会搜索 7000 万张照片,以提供它认为最相似的照片。该网站还在其 400 万部电影剪辑中使用该工具,这是该公司业务的一个增长领域。

重要的是,它仅用 200 毫秒就完成了搜索,这比该公司的旧型号所用时间少了一半。虽然 200 毫秒的差别听起来可能不多,但 Lester 表示,这对没有耐心的客户来说意义重大。“当我们加快速度时,我们发现人们搜索得更多,因为我们所做的就是降低他们搜索的成本,这意味着他们会更多地浏览我们的网站。这反过来意味着他们更有可能注册成为客户,”他说。

对于 Shutterstock 的计算机视觉工具来说,某些类型的图像比其他类型的图像更具挑战性。莱斯特说,在抽象图像上训练系统需要更长的时间,有时它可以将水印解读为图像的重要部分。

“系统的智能程度取决于你训练它的内容,”莱斯特说。“如果有些东西超出了它的能力范围,它的表现就不会那么好,因为它会把它强行塞进它能理解的东西中。”但是,随着贡献者添加更多图像,数据库会不断变化,因此该公司的良好模型只会变得更好。

卡内基梅隆大学计算机视觉教授西蒙·卢西在使用 Shutterstock 网站时对结果印象深刻。“他们所做的事情代表了目前计算机视觉领域正在发生的事情:深度学习取得了巨大进步,”他说。“对于许多任务,这些模型都达到了与人类类似的表现。”

卢西说,让计算机理解图像而不仅仅是捕捉图像,一直是计算机科学的终极目标,而硬件和软件的改进已将技术带到了这一目标。他补充说,Shutterstock 的工具正乘着这股进步的浪潮。

不存在该限制

随着 Shutterstock 等模型的改进,工程师们遇到了语义或哲学问题。莱斯特说,在某个时候,人们对图像的定义会有所不同——那时他就知道他的团队可以停止改进模型了。然后不可避免地会冒犯某人,比如去年谷歌的工具将一名女性标记为大猩猩。

Lester 表示:“当计算机错误地认为这张图片就是这个东西,并且认为这是一种糟糕的、可能具有冒犯性的关系时,计算机视觉就会开始陷入麻烦之中。”为了避免像 Google 遇到的那样的问题,Shutterstock 的团队识别了可能存在问题的区别,并在这些图片上重新训练了模型。如果模型在这些方面足够聪明,Lester 表示,它就不会再产生这些令人反感的联想。

最终,像 Shutterstock 这样的网站可以利用计算机视觉来支持新类型的搜索,或者与图像交互的新方式。有一天,您可以通过将框拖到照片的该部分来搜索您看到的名人穿的鞋子 - 您不需要描述鞋子,甚至不需要知道穿着者的名字。

莱斯特说:“当你开始将你的发现体验更多地基于像素时,你可以以迄今为止业界尚未见过的方式影响你的搜索。”

总体而言,计算机视觉的应用似乎是无限的。当与机器人技术和人工智能等其他类型的技术相结合时,计算机视觉可以帮助自动驾驶汽车看到行人,或使机器人能够正确抓取物体,或帮助盲人看清事物。

尽管 Lucey 预计我们将会遇到更多问题(例如隐私问题、随着行业转型导致人们失业等),但他相信计算机视觉是一种可以让世界变得更美好的力量。

“我认为,就像视频压缩一样,计算机视觉最终将变得不引人注意。我们会认为这是理所当然的。它只是会起作用,”他说。“我认为这是好技术的标志,技术本身不再引人注意。”

随着 Shutterstock 今天推出新工具,我们距离这一目标又近了一步。Lester 和他的同事们很高兴看到客户会如何使用它。“将它投入市场最令人兴奋的事情是看看人们想要什么以及他们如何使用它,”Shutterstock 搜索和发现产品总监 Lawrence Lazare 说。“有时人们不会像你想象的那样使用它。”

<<:  谷歌人工智能围棋锦标赛前夕的 5 种致敬人类的方式

>>:  《创意控制》导演谈我们的增强现实

推荐阅读

Waimo-kun 的旅程:全面回顾一段令人感动的冒险与成长故事

Waimokun 的旅程 - Waimokunnotabi - 评论和推荐■ 公共媒体卵子■ 原创媒...

著名《荒野生存》巴士背后的悲惨遗产

这个故事最初刊登在《户外生活》杂志上。本月初,阿拉斯加国民警卫队使用一架支奴干直升机吊运了“巴士”。...

让你的相机脱离架子并开始拍摄更多照片的技巧

许多人的抽屉里都放着一台较新的 DSLR 或无反光镜相机。其实这并不是迫切需要它们 — 大多数情况下...

《青鬼》动画评论:恐怖与悬疑的巅峰

青鬼动画 - 青鬼动画概述《青鬼 THE ANIMATION》是一部日本动画电影,于2017年2月1...

购买这款翻新的 Apple iPad Pro 9.7 英寸套装,以实惠的价格获得高级功能

您是否想购买新 iPad,但又不想花太多钱?不妨考虑购买翻新设备。翻新产品近年来越来越受欢迎,而且理...

世界上最干旱的地方之一刚刚遭遇创纪录的洪水

在这个全球范围遭遇创纪录的热浪和大面积干旱的季节,一个意想不到的地方却在一天之内经历了一个潮湿炎热的...

《人形怪兽贝姆》和《我们是人形怪兽G》的魅力与评价:给现代动漫迷的建议

人形怪兽 Bem & 我们是人形怪兽 G 评价和推荐2018年播出的《人形怪兽贝姆》和《我们...

一起游动的鱼在湍急的水中表现更好

群居鱼类,包括斑马鱼、彩虹鱼和月鱼/月鱼,喜欢在蔚蓝的大海中聚在一起。科学家认为,成群结队地游动有许...

《头脑特工队 2》中尴尬青春期大脑的科学

青少年大脑中响起的红色警报声宣告青春期即将到来,在放映迪士尼和皮克斯的新电影《头脑特工队 2》时,观...

人工鸟巢可为濒危鸟类在新海上风电场附近提供家园

一家大型海上风电场供应商刚刚在英格兰东海岸完成了三座大型人工筑巢结构 (ANS) 的建设。这三座大型...

所有的婴儿都长得一样吗?取决于你是谁。

我从朋友那里听到过很多次这种说法。“为什么要发婴儿照片?”有人问道。“所有新生儿看起来都一模一样。他...

航空业担忧再次搁置 5G 扩张计划

AT&T 和 Verizon 周一宣布,由于担心无线服务变化可能会影响航班,他们将推迟计划中...

触摸评价:没有跳出来!

《Touch:Jump Out!》的号召力与评价触摸:跳出!于1987年作为OVA发行,是一部源自...

午睡公主:跨越梦境与现实界限的动人故事

《午睡公主:未知的我的故事》的号召力与评价《午睡公主:未知的我的故事》是一部由神山健司执导的动画电影...

这款无电池发电机由鱼鳞制成

印度物理学家用鱼鳞制成了一台无需电池的发电机。这种透明、柔韧的发电机可以从身体动作、声音振动和风流等...