借助网络，机器人现在可以更好地理解我们

科技巨头谷歌及其子公司人工智能研究实验室 DeepMind 开发了一种基本的人机翻译器。他们将其描述为“首创的视觉-语言-动作模型”。两人在周五的两份独立声明中表示，该模型名为 RT-2，经过语言和视觉输入训练，旨在将来自网络的知识转化为机器人可以理解和响应的指令。

在一系列试验中，该机器人证明它可以识别和区分不同国家的国旗、足球和篮球、泰勒·斯威夫特等流行偶像以及一罐红牛等物品。

“开发实用机器人一直是一项艰巨的任务，因为能够在现实世界中完成一般任务的机器人需要能够在高度变化的环境中处理复杂、抽象的任务——尤其是它从未见过的环境，”谷歌 DeepMind 机器人负责人 Vincent Vanhoucke 在一篇博文中说道。“与聊天机器人不同，机器人需要‘扎根’于现实世界及其能力……机器人需要能够在环境中识别苹果，将其与红球区分开来，了解苹果的样子，最重要的是，知道如何捡起它。”

这意味着，传统上训练机器人需要从头开始生成数十亿个数据点，以及特定的指令和命令。像告诉机器人扔掉垃圾这样的任务需要程序员明确训练机器人识别垃圾、垃圾桶，以及采取什么动作捡起并扔掉垃圾。

过去几年，谷歌一直在探索各种方法来教机器人完成任务，就像教人（或狗）一样。去年，谷歌展示了一款可以根据人类的自然语言指令编写自己的代码的机器人。谷歌的另一家子公司 Everyday Robots 尝试使用一种名为 SayCan 的模型将用户输入与预测响应配对，该模型从维基百科和社交媒体中提取信息。

[相关：谷歌正在测试一种可以自我编程的新机器人]

机器人可以执行的一些任务示例。DeepMind

RT-2 以类似的前身模型 RT-1 为基础，该模型允许机器通过一系列基本推理来解释新的用户命令。此外，RT-2 还具备与符号理解和人类识别相关的技能，谷歌认为这些技能将使它成为在以人为中心的环境中工作的通用机器人。
有关机器人使用 RT-2 能做什么和不能做什么的更多详细信息，请参阅 DeepMind 和 Google 在网上发布的论文。

[相关：人工智能广阔世界的简单指南]

RT-2 还借鉴了视觉语言模型 (VLM) 所做的工作，这些模型曾用于为图像添加字幕、识别帧中的对象或回答有关特定图片的问题。因此，与 SayCan 不同，该模型实际上可以看到周围的世界。但要使 VLM 能够控制机器人，需要在其上添加一个输出操作组件。这是通过在模型中将机器人可以执行的不同操作表示为标记来实现的。这样，模型不仅可以预测某人查询的答案可能是什么，还可以生成最有可能与之相关的操作。

DeepMind 指出，例如，如果一个人说他们累了，想喝点东西，机器人就可以决定给他们拿一杯能量饮料。

<<: 3 种方法让笔记本电脑电池续航时间更长——或许一整天

>>: 在家工作时如何避免分心