研究人员正在通过反复试验的强化学习来训练机器人执行越来越多的任务,而这通常既费力又费时。为了提供帮助,人类现在正在利用大型语言模型 AI 来加快训练过程。在最近的一项实验中,这产生了一些非常灵巧的模拟机器人。 NVIDIA Research 的一个团队指导了由 OpenAI 的 GPT-4 提供支持的 AI 协议,以教会机械手模拟近 30 项复杂任务,包括抛球、推积木、按开关以及一些令人印象深刻的转笔能力。 [相关:这些人工智能机器人手臂足够灵敏,可以拾起品客薯片。] NVIDIA 的新 Eureka“AI 代理”利用 GPT-4,要求大型语言模型 (LLM) 编写自己的基于奖励的强化学习软件代码。据该公司称,Eureka 不需要复杂的提示,甚至不需要预先编写的模板;相反,它只是开始磨练程序,然后遵循任何后续的外部人工反馈。 在公司的公告中,NVIDIA 高级研究科学家 Linxi “Jim” Fan 将 Eureka 描述为 LLM 与 GPU 加速模拟编程的“独特组合”。Fan 补充道:“我们相信 Eureka 将实现灵巧的机器人控制,并为艺术家提供一种制作逼真动画的新方法。” 从 NVIDIA 的演示视频来看,经过 Eureka 训练的机械手可以完成旋转笔的技巧,其技巧甚至可以与灵巧的人类相媲美,甚至超越他们。 在高级模拟程序中测试其训练协议后,Eureka 随后分析其收集的数据并指导 LLM 进一步改进其设计。最终结果是一个几乎自我迭代的 AI 协议,能够成功编码各种机械手设计,以便在物理精确的模拟环境中操纵剪刀、旋转钢笔和打开橱柜。 Eureka 的替代人类编写的试错学习程序不仅有效,而且在大多数情况下,它们实际上比人类编写的程序更好。在该团队的开源研究论文中,Eureka 设计的奖励程序在 80% 以上的任务中表现优于人类代码,在机器人模拟中平均性能提高了 50% 以上。 [相关:研究人员如何训练廉价机器狗完成各种技巧。] NVIDIA 人工智能研究高级总监、Eureka 论文合著者之一 Anima Anandkumar 在公司公告中表示:“强化学习在过去十年中取得了令人瞩目的成就,但仍然存在许多挑战,例如奖励设计,这仍然是一个反复试验的过程。Eureka 是开发新算法的第一步,这些算法将生成式和强化学习方法结合起来解决困难任务。” |
<<: 如何解锁 iPhone 15 上隐藏的、更强大的相机
在美国联邦调查局公开发布波士顿马拉松爆炸案嫌疑人的照片和视频的第二天,7-Eleven 的监控录像帮...
你听到了吗?我发誓,一根树枝刚刚在篝火旁掉落,但我太害怕了,不敢看。你介意用我的夜视双筒望远镜看看吗...
美国有近 1.77 亿人正在瑟瑟发抖,或正在等待北极寒流和雨雪交加的阵风。据美国国家气象局称,由于冰...
本周,科技界一些大佬齐聚一堂,宣布成立“星际之门”项目,他们表示该项目将获得 5000 亿美元的投资...
龙卷风席卷美国中西部。飓风和海平面上升淹没了沿海地区。野火肆虐西南部,暴风雪则让北部地区陷入冰冻。环...
周六,一艘等待进入肯尼亚港口城市蒙巴萨的船只误入禁区并抛锚,无意中切断了通往东非的一条重要海底互联网...
本文最初刊登在《Hakai 杂志》上,这是一本有关沿海生态系统科学和社会的在线刊物。如需阅读更多类似...
2021 年,NASCAR 发布了其下一代平台,该平台与上一代相比进行了许多规则更改。现在,最新的 ...
《忍术火魂江户小造之卷》:日本动画的开端■ 公共媒体剧院■ 原创媒体动漫原创■ 发布日期1934 ...
秋天快到了,这意味着你会更频繁地在室内看到虫子。就像我们一样,节肢动物也想在秋天和冬天找到温暖的地方...
熙熙攘攘的餐厅为人们带来了终极的现实听力挑战。当食客们交换故事时,他们的声音会与其他桌子的闲聊声、餐...
如今,已经没有办法解决这个问题:您需要将 iPhone 上的视频和图像备份到另一台设备上,以防手机丢...
网络不必保持固定和静态。使用正确的工具,您可以在访问的网站上键入和涂鸦,为各种目的添加各种注释。也许...
《明石与时之子》:30分钟的历史与冒险1992年2月上映的动画电影《明石与时之子》以其独特的故事情节...
太阳能电池板代表着高科技能源的典范——光滑、安静、清洁、优雅。几十年来,工程师们通过使用纯度更高的硅...