科技巨头谷歌及其子公司人工智能研究实验室 DeepMind 开发了一种基本的人机翻译器。他们将其描述为“首创的视觉-语言-动作模型”。两人在周五的两份独立声明中表示,该模型名为 RT-2,经过语言和视觉输入训练,旨在将来自网络的知识转化为机器人可以理解和响应的指令。 在一系列试验中,该机器人证明它可以识别和区分不同国家的国旗、足球和篮球、泰勒·斯威夫特等流行偶像以及一罐红牛等物品。 “开发实用机器人一直是一项艰巨的任务,因为能够在现实世界中完成一般任务的机器人需要能够在高度变化的环境中处理复杂、抽象的任务——尤其是它从未见过的环境,”谷歌 DeepMind 机器人负责人 Vincent Vanhoucke 在一篇博文中说道。“与聊天机器人不同,机器人需要‘扎根’于现实世界及其能力……机器人需要能够在环境中识别苹果,将其与红球区分开来,了解苹果的样子,最重要的是,知道如何捡起它。” 这意味着,传统上训练机器人需要从头开始生成数十亿个数据点,以及特定的指令和命令。像告诉机器人扔掉垃圾这样的任务需要程序员明确训练机器人识别垃圾、垃圾桶,以及采取什么动作捡起并扔掉垃圾。 过去几年,谷歌一直在探索各种方法来教机器人完成任务,就像教人(或狗)一样。去年,谷歌展示了一款可以根据人类的自然语言指令编写自己的代码的机器人。谷歌的另一家子公司 Everyday Robots 尝试使用一种名为 SayCan 的模型将用户输入与预测响应配对,该模型从维基百科和社交媒体中提取信息。 [相关:谷歌正在测试一种可以自我编程的新机器人] RT-2 以类似的前身模型 RT-1 为基础,该模型允许机器通过一系列基本推理来解释新的用户命令。此外,RT-2 还具备与符号理解和人类识别相关的技能,谷歌认为这些技能将使它成为在以人为中心的环境中工作的通用机器人。 [相关:人工智能广阔世界的简单指南] RT-2 还借鉴了视觉语言模型 (VLM) 所做的工作,这些模型曾用于为图像添加字幕、识别帧中的对象或回答有关特定图片的问题。因此,与 SayCan 不同,该模型实际上可以看到周围的世界。但要使 VLM 能够控制机器人,需要在其上添加一个输出操作组件。这是通过在模型中将机器人可以执行的不同操作表示为标记来实现的。这样,模型不仅可以预测某人查询的答案可能是什么,还可以生成最有可能与之相关的操作。 DeepMind 指出,例如,如果一个人说他们累了,想喝点东西,机器人就可以决定给他们拿一杯能量饮料。 |
<<: 3 种方法让笔记本电脑电池续航时间更长——或许一整天
Cap Revolution Bottleman DX - 激动人心的瓶子大战和深刻的故事的融合《瓶...
仅仅在恶劣的太空环境中走出户外对生物来说就是一项危险的任务——除了失重和低压或无压条件之外,在地球保...
本周早些时候,一架从伦敦飞往迪拜的英国航空公司航班在飞行 30 分钟后被迫返航。原因不是恐怖威胁、天...
《越位》:一个关于青春和友谊的足球故事《越位》是 2001 年播出的电视动画系列,改编自平内夏子的漫...
你可以直接使用设备自带的充电器。或者你也可以做得更好。你自己决定吧。Steve Johnson 通过...
世界上没有任何东西能比得上新车的气味。司机和乘客都只能在全新汽车的车厢内闻到这种一眼就能辨认出的迷人...
机甲☆非洲君 试播集 - 一部描绘近未来上班族社会的喜剧动画■ 公共媒体卵子■ 原创媒体特点■ 发布...
密歇根州弗林特市 Connor Coyne弗林特的毒害是一场永无止境的悲剧。在得知自家供水含有铅五年...
1.65 亿年来,恐龙统治着陆地、海洋和天空。长颈腕龙像移动的四层建筑一样笨重地行走。霸王龙用 5...
今天,柯达宣布将恢复其标志性的黑白胶片之一 TMax P3200,该胶片自 2012 年起已停产。这...
如果一切顺利,几年后,NASA 宇航员将乘坐猎户座太空舱前往月球,这是一个重达 8.5 吨的庇护所,...
2016 年,SpaceX 首席执行官埃隆·马斯克 (Elon Musk) 提出了一项将人类送往火...
派对准备工作可能会让你陷入绝对的混乱,因为你要一遍又一遍地重复同一个地方,直到所有的碎屑都被吸干净。...
您可能知道 Mac 上的应用程序一直在连接互联网,但它们究竟在连接什么?您可以使用 Little S...
“公主首席皇冠管理员第 3 章”评论和详细信息《公主学院王冠处理者第 3 章》是一部于 2023 年...