通过 GIPHY 以动词“移除”为例。作为人类,您了解该词的不同用法,并且您知道从视觉上看,场景会因移除的内容不同而有所不同。从大块物体中取出蜂窝状碎片与从田地中拉出防水布或从智能手机上取下屏幕保护膜看起来不同。但您明白了:在所有这些例子中,都有一些东西被移除了。 但是,计算机和人工智能系统需要学会这些动作是什么样子的。为了实现这一目标,IBM 最近发布了一个大型新数据集,其中包含三秒钟的视频片段,旨在通过向研究人员提供动作动词(如“瞄准”、“俯冲”和“除草”)的视觉示例,帮助研究人员训练他们的机器学习系统。探索它(上面的汽车视频和下面的蜜蜂视频来自数据集并演示了“移除”)可以让你了解机器学习中香肠制作过程的奇妙之处。在“眨眼”下,观众可以看到乔恩·哈姆 (Jon Hamm) 扮演的唐·德雷珀 (Don Draper) 眨眼的片段,以及辛普森一家的片段;还有更多这样的片段。在此处查看数据集的一部分 - 总共有 300 多个动词和一百万个视频。 通过 GIPHY 教会计算机理解视频中的动作比让它们理解图像更难。IBM-MIT 联合实验室的研究员 Dan Gutfreund 表示:“视频更难,因为与物体识别相比,我们处理的问题在复杂性方面要高出一步。因为物体就是物体;热狗就是热狗。”与此同时,理解动词“opening”也很棘手,他说,因为狗张嘴或人开门看起来会有所不同。 该数据集并不是研究人员为帮助机器理解图像或视频而创建的第一个数据集。一个名为 ImageNet 的数据集在教计算机学习识别图片方面发挥了重要作用,其他视频数据集也已经存在:一个叫做 Kinetics,另一个专注于体育运动,还有一个来自中佛罗里达大学,包含“篮球扣篮”等动作。 但古特弗伦德表示,他们的新数据集的优势之一是它专注于他所谓的“原子动作”。这些动作包括从“攻击”到“打哈欠”等基本动作。古特弗伦德表示,将事物分解为原子动作比专注于更复杂的动作(如展示某人换轮胎或系领带)更有利于机器学习。 最后,他说他希望这个数据集能够帮助计算机模型能够像人类一样轻松地理解简单的动作。 |
>>: Facebook Messenger Kids 可能不会毁了你的孩子
随着触摸屏越来越灵敏,设备越来越强大,创造数字艺术的可能性就在你的指尖。从手机上的快速素描应用程序到...
当动物出生或植物发芽时,新生生物不仅继承了其亲本的 DNA,还继承了一些称为表观遗传记忆的遗传记忆。...
摘自安东尼·阿德勒 (Anthony Adler) 所著的《海王星实验室:海上的幻想、恐惧和科学》。...
您曾以为说服朋友将 WhatsApp 换成 Telegram 或 Signal 是更换消息应用程序最...
一块磁铁矿守卫着密苏里州沙利文附近豌豆岭铁矿的办公室门,它是该矿过去和未来的吉祥物。2001 年,吉...
人类在地球上已经取得了不俗的成绩,现在却开始污染大气层外的天空。经过近 70 年的现代火箭和卫星项目...
《关于我转生变成史莱姆这档事》系列电视连续剧第2集/②的详细评论和推荐概述《关于我转生变成史莱姆这...
宇航员——一部让你感受到宇宙共鸣的新动画2024年4月5日开播的《Astronote》是一部迈出电视...
乔尔·金纳曼(左)和加里·奥德曼主演了翻拍版《机械战警》。克里·海耶斯/哥伦比亚影业在科幻电影中,科...
对于有史以来最大的游戏世界之一来说,这是一个重要的月份。神秘而备受期待的太空探索游戏《无人深空》发布...
大型语言模型 (LLM) 正变得越来越主流,虽然它们还远非完美,但研究界日益严格的审查正在挑战开发人...
本文已更新。最初于 2018 年 2 月 14 日发布。你点击链接进入一篇文章,突然扬声器响了起来。...
如今,98% 以上的科学论文都是用英语发表的,但情况并非总是如此。普林斯顿大学科学史学家迈克尔·戈丁...
我明白——我们仍然对冥王星心怀怨恨。我们希望它一直是一颗行星,所以我们会一直怀着我们的义愤,直到我们...
Lumia 800 的命运注定:诺基亚的硬件很棒,但软件很糟糕。Windows Phone 的软件很...