DALL-E 2 和 Stable Diffusion 等人工智能文本转图像生成器今年取得了巨大的成功。在 Twitter 上浏览时,几乎不可能不看到一些根据(通常很荒谬的)书面提示生成的图像。不过,研究人员已经开始研究下一代生成器:文本转视频。 在本周发表的一篇论文中,Meta AI 的研究人员展示了一款名为 Make-A-Video 的文本转视频生成器。它接受“一只泰迪熊画肖像”或“一只穿着超级英雄服装、披着红色斗篷飞过天空的狗”等书面提示,然后返回一段简短的视频片段,描述机器学习模型重现该场景的最佳尝试。这些视频显然是人造的,但同样令人印象深刻。 除了书面提示外,Make-A-Video 还可以根据其他视频或图像制作视频。它可以为静态图像添加动作,并创建链接两幅图像的视频。 目前,Make-A-Video 的无声片段由 16 帧组成,输出分辨率为 64 x 64 像素,然后使用另一个 AI 模型将其放大到 768 x 768 像素。它们只有五秒钟长,只描述了一个动作或场景。虽然我们距离让 AI 从头开始制作一部故事片还有很长的路要走(尽管 AI 以前曾写过剧本,甚至导演过电影),但 Meta 的研究人员打算在未来的研究中努力克服其中的一些技术限制。 与最好的文本转图像生成器一样,Make-A-Video 使用一种称为“扩散”的技术。它从随机生成的噪声开始,然后逐步调整以更接近目标提示。结果的准确性在很大程度上取决于训练数据的质量。 根据宣布该功能的博客文章,Make-A-Video 的 AI 学会了“从成对的文本图像数据中了解世界是什么样子,以及从没有相关文本的视频片段中了解世界是如何移动的”。它接受了来自 LAOIN-5B 数据库的超过 23 亿个文本图像对以及来自 WebVid-10M 和 HD-VILA-100M 数据库的数百万个视频的训练。 Meta 声称,静态图像与配对文本足以训练文本转视频模型,因为可以从图像中推断出运动、动作和事件,例如一位女士在喝咖啡或一头大象在踢足球。同样,即使没有任何文字描述,“无监督视频也足以了解世界上不同实体如何移动和互动。” Make-A-Video 的结果表明他们是正确的。 研究人员表示,他们已经尽其所能控制训练数据的质量,过滤掉 LAOIN-5B 数据集中所有包含 NSFW 内容或有毒词汇的文本-图像对,他们承认,就像“所有使用网络数据训练的大型模型一样,[他们的]模型已经学会并可能夸大社会偏见,包括有害偏见。” 防止人工智能创造种族主义、性别歧视和其他冒犯性、不准确或危险的内容是该领域面临的最大挑战之一。 目前,Make-A-Video 仅供 Meta 的研究人员使用(尽管您可以在此处注册以获取访问权限)。尽管该团队展示的视频令人印象深刻,但我们必须承认,这些视频可能是为了以最佳方式展示算法而选择的。不过,很难不承认人工智能图像生成已经取得了多大的进展。就在几年前,DALL-E 的结果还只是有点意思——现在它们已经是照片级的了。 文字转视频对于 AI 来说无疑更具挑战性,因为要想做到准确无误,难度无疑更大。正如马克·扎克伯格在 Facebook 帖子中所说:“生成视频比生成照片困难得多,因为除了正确生成每个像素之外,系统还必须预测它们会如何随时间变化。”这些视频具有抽象、不自然、不稳定的特质,描绘的动作并不那么自然。 尽管质量较低,扎克伯格仍称该工具“取得了相当惊人的进步”。 |
《达摩不倒翁》:一部描绘一生难得一遇的感动的动画片《不倒翁》是1995年3月30日上映的动画电影。...
通过机器人在火星上体验生活似乎很迷人,从很多方面来说确实如此,比如敲碎岩石、铲起沙子等等。但日程安排...
星期一的 Tawawa 2 OVA - 月夜之 Tawawa 2 OVA概述《星期一的塔瓦瓦2 OV...
我们都有自己想要支持的慈善事业,但筹集资金似乎比单独捐赠任何我们力所能及的资金要困难得多。不过,使用...
斗争!奥斯帕-战斗吧!奥斯珀概述《战斗吧!奥斯帕》是一部日本动画电视连续剧,播出时间为 1965 年...
蜡笔丸 - 蜡笔丸 - 诉求与评价蜡笔丸,俗称蜡笔丸,是一部于 2001 年至 2002 年播出的电...
为另一场“裙子”辩论做好准备。即使你希望自己不记得,你也会记得:一张裙子的图片在推特上疯传,因为在一...
护士天使莉莉卡 SOS - 与治愈系女英雄一起展开的温馨冒险■作品概要《护士天使 莉莉卡 SOS》是...
去年11月,美国宇航局果断实施了为期两年半的替换老化航天飞机的计划。它使该项目的核心被瓦解了。美国宇...
飞鼠是一种可爱的小型哺乳动物,体重不到半磅。此外,栖息在北美的三种飞鼠(称为新大陆飞鼠)在紫外线下会...
我。地震产生的 50 英尺高的水墙冲破了第一核电站的防波堤,淹没了备用柴油发电机。现场六座核反应堆中...
《忍者乱太郎》第15季的魅力与评价《忍者乱太郎》是一部长篇动画,改编自宗兵卫天子的原著漫画,自 19...
2011 年 1 月 28 日凌晨,即将解散的总统穆巴拉克政府切断了埃及的互联网,这证明了美国国务院...
“红色萨拉凡”:NHK《大家的歌》带来的两分钟感人故事《红色萨拉凡》是一部简短但感人至深的动画片,...
今天美国东部时间上午 8:35 左右,NASA 取消了原定的 Artemis 1 发射计划。据 NA...