科技巨头谷歌及其子公司人工智能研究实验室 DeepMind 开发了一种基本的人机翻译器。他们将其描述为“首创的视觉-语言-动作模型”。两人在周五的两份独立声明中表示,该模型名为 RT-2,经过语言和视觉输入训练,旨在将来自网络的知识转化为机器人可以理解和响应的指令。 在一系列试验中,该机器人证明它可以识别和区分不同国家的国旗、足球和篮球、泰勒·斯威夫特等流行偶像以及一罐红牛等物品。 “开发实用机器人一直是一项艰巨的任务,因为能够在现实世界中完成一般任务的机器人需要能够在高度变化的环境中处理复杂、抽象的任务——尤其是它从未见过的环境,”谷歌 DeepMind 机器人负责人 Vincent Vanhoucke 在一篇博文中说道。“与聊天机器人不同,机器人需要‘扎根’于现实世界及其能力……机器人需要能够在环境中识别苹果,将其与红球区分开来,了解苹果的样子,最重要的是,知道如何捡起它。” 这意味着,传统上训练机器人需要从头开始生成数十亿个数据点,以及特定的指令和命令。像告诉机器人扔掉垃圾这样的任务需要程序员明确训练机器人识别垃圾、垃圾桶,以及采取什么动作捡起并扔掉垃圾。 过去几年,谷歌一直在探索各种方法来教机器人完成任务,就像教人(或狗)一样。去年,谷歌展示了一款可以根据人类的自然语言指令编写自己的代码的机器人。谷歌的另一家子公司 Everyday Robots 尝试使用一种名为 SayCan 的模型将用户输入与预测响应配对,该模型从维基百科和社交媒体中提取信息。 [相关:谷歌正在测试一种可以自我编程的新机器人] RT-2 以类似的前身模型 RT-1 为基础,该模型允许机器通过一系列基本推理来解释新的用户命令。此外,RT-2 还具备与符号理解和人类识别相关的技能,谷歌认为这些技能将使它成为在以人为中心的环境中工作的通用机器人。 [相关:人工智能广阔世界的简单指南] RT-2 还借鉴了视觉语言模型 (VLM) 所做的工作,这些模型曾用于为图像添加字幕、识别帧中的对象或回答有关特定图片的问题。因此,与 SayCan 不同,该模型实际上可以看到周围的世界。但要使 VLM 能够控制机器人,需要在其上添加一个输出操作组件。这是通过在模型中将机器人可以执行的不同操作表示为标记来实现的。这样,模型不仅可以预测某人查询的答案可能是什么,还可以生成最有可能与之相关的操作。 DeepMind 指出,例如,如果一个人说他们累了,想喝点东西,机器人就可以决定给他们拿一杯能量饮料。 |
<<: 3 种方法让笔记本电脑电池续航时间更长——或许一整天
如果线虫做噩梦,它们可能会梦到被一种名为Arthrobotrys oligospora的食肉真菌活活...
在杂货店花钱是吃得更健康、减少开支的好方法。买食物的问题是你必须准备食物,这当然需要时间。 Snap...
一天早上,在捷克共和国的一家医院里,一名 69 岁的男子因心脏病去世。一小时后,当护士们准备将他的尸...
自动驾驶汽车正在缓慢但稳步地到来。过去几年,汽车制造商(当然还有谷歌)推出了一系列自动驾驶技术,其中...
糖苹果童话第二季 - 甜蜜故事续集《糖苹果童话》第二季于2023年7月7日至9月22日播出,再次把观...
日本研究人员声称,他们发现了人们长期寻找的元素 113 号的确凿证据。该元素是一种超重、超不稳定元素...
说到复古未来主义,没有什么主题比 20 世纪 20 年代风格的飞艇更贴近我们的心灵。这些雄伟的“天空...
世界各地的科学家正在迅速整合使用小鼠、恒河猴和雪貂等动物模型来研究 COVID-19 的研究。但在其...
我对平面设计情有独钟,因此我自然而然地喜欢 20 世纪 90 年代的复古艺术字。这是 Microso...
一种最初设计用于扫描毒素、病原体和其他生物危害的设备,将来可能会在火星探测器上派上用场。来自戈达德太...
今天,拜登总统宣布了旨在保护生殖权利的新指导方针和拨款,并讨论了自 6 月美国最高法院推翻罗诉韦德案...
魔法少女魔法破坏神——独特的魔法少女动画带来的新视角《魔法少女魔法破坏神》于2023年4月8日至6月...
美国最潮湿的地方之一是夏威夷考艾岛上的怀厄莱阿莱山。这座海拔 5,148 英尺的山峰每年平均降雨量为...
魔法少女普莉特萨米:魔法与欢笑的融合《魔法少女普莉特萨米》于1995年6月25日以OVA形式发行,是...
浏览一下 Apple Watch 上的应用程序,你不会发现 Safari 网络浏览器。考虑到屏幕尺寸...