研究人员正在通过反复试验的强化学习来训练机器人执行越来越多的任务,而这通常既费力又费时。为了提供帮助,人类现在正在利用大型语言模型 AI 来加快训练过程。在最近的一项实验中,这产生了一些非常灵巧的模拟机器人。 NVIDIA Research 的一个团队指导了由 OpenAI 的 GPT-4 提供支持的 AI 协议,以教会机械手模拟近 30 项复杂任务,包括抛球、推积木、按开关以及一些令人印象深刻的转笔能力。 [相关:这些人工智能机器人手臂足够灵敏,可以拾起品客薯片。] NVIDIA 的新 Eureka“AI 代理”利用 GPT-4,要求大型语言模型 (LLM) 编写自己的基于奖励的强化学习软件代码。据该公司称,Eureka 不需要复杂的提示,甚至不需要预先编写的模板;相反,它只是开始磨练程序,然后遵循任何后续的外部人工反馈。 在公司的公告中,NVIDIA 高级研究科学家 Linxi “Jim” Fan 将 Eureka 描述为 LLM 与 GPU 加速模拟编程的“独特组合”。Fan 补充道:“我们相信 Eureka 将实现灵巧的机器人控制,并为艺术家提供一种制作逼真动画的新方法。” 从 NVIDIA 的演示视频来看,经过 Eureka 训练的机械手可以完成旋转笔的技巧,其技巧甚至可以与灵巧的人类相媲美,甚至超越他们。 在高级模拟程序中测试其训练协议后,Eureka 随后分析其收集的数据并指导 LLM 进一步改进其设计。最终结果是一个几乎自我迭代的 AI 协议,能够成功编码各种机械手设计,以便在物理精确的模拟环境中操纵剪刀、旋转钢笔和打开橱柜。 Eureka 的替代人类编写的试错学习程序不仅有效,而且在大多数情况下,它们实际上比人类编写的程序更好。在该团队的开源研究论文中,Eureka 设计的奖励程序在 80% 以上的任务中表现优于人类代码,在机器人模拟中平均性能提高了 50% 以上。 [相关:研究人员如何训练廉价机器狗完成各种技巧。] NVIDIA 人工智能研究高级总监、Eureka 论文合著者之一 Anima Anandkumar 在公司公告中表示:“强化学习在过去十年中取得了令人瞩目的成就,但仍然存在许多挑战,例如奖励设计,这仍然是一个反复试验的过程。Eureka 是开发新算法的第一步,这些算法将生成式和强化学习方法结合起来解决困难任务。” |
<<: 如何解锁 iPhone 15 上隐藏的、更强大的相机
本周对小行星来说意义重大,不仅仅是因为 NASA 的 DART 任务故意将一艘航天器撞向小行星。一块...
2004 年 1 月 3 日,勇气号火星探测器登陆火星,执行任务预计持续 90 个火星日(一个火星日...
图片集:龙卷风走廊的极端天气 https://t.co/x8N1s3Tpxi #StormHour ...
红色恶魔与蓝色恶魔的探戈 ~大家的歌(1977年版)的魅力与评价《红蓝鬼怪的探戈》是1977年作为N...
引发全球范围内“口袋妖怪”热潮的游戏《口袋妖怪红》和《口袋妖怪蓝》最初于 20 年前的 1996 年...
欢乐王国 - 妖精的王国■ 公共媒体剧院■ 原创媒体动漫原创■ 发布日期1956 ■频率11 分钟■...
罗马尼亚的一组研究人员利用数百年前的原始资料,探索一个以吸血鬼传说而闻名的地区是如何因小冰河期的影响...
公司投资自动化通常是为了提高利润和生产力,但情况可能并非总是如此。最近的一项研究表明,企业可能会看到...
厌倦了不断上涨的油价?换一辆 BirdBike 电动自行车吧,现在只需 899.97 美元,免运费。...
《圣斗士星矢:黄金魂》全面点评与推荐概述《圣斗士星矢 黄金魂》是根据车田正美原作《圣斗士星矢》改编的...
2020 年 7 月 18 日,一名男子在一次潜水事故中受伤,导致其 C4 和 C5 椎骨受伤,胸部...
我们都听过这样的建议:如果你爱某样东西,就放手吧。虽然听起来很老套,但这个建议对于一件事物来说绝对是...
『KING OF PRISM -Shiny Seven Stars-IV Louis×Shin×U...
乱马 ½ OVA 系列 #1 - 乱马 ½ 《乱马半 OVA 系列 #1》是 1993 年 10 月...
和我们早期的人类祖先一样,现代人的脸又短又扁。然而,我们的鼻子却很突出,鼻窦比我们最近的猿类亲戚黑猩...