0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌研究人员利用3D卷积网络打造视频生成新系统

DPVg_AI_era 来源:lq 2019-06-02 09:30 次阅读

谷歌研究人员利用3D卷积网络打造视频生成新系统,只需要视频的第一帧和最后一帧,就能生成完整合理的整段视频,是不是很神奇?

漫画书秒变动画片了解一下?

想象一下,现在你的手中有一段视频的第一帧和最后一帧图像,让你负责把中间的图像填进去,生成完整的视频,从现有的有限信息中推断出整个视频。你能做到吗?

这可能听起来像是一项不可能完成的任务,但谷歌人工智能研究部门的研究人员已经开发出一种新系统,可以由视频第一帧和最后一帧生成“似是而非的”视频序列,这个过程被称为“inbetween”。

“想象一下,如果我们能够教一个智能系统来将漫画自动变成动画,会是什么样子?如果真实现了这一点,无疑将彻底改变动画产业。“该论文的共同作者写道。“虽然这种极其节省劳动力的能力仍然超出目前最先进的水平,但计算机视觉机器学习威廉希尔官方网站 的进步正在使这个目标的实现越来越接近。”

原理与模型结构

这套AI系统包括一个完全卷积模型,这是是受动物视觉皮层启发打造的深度神经网络,最常用于分析视觉图像。它由三个部分组成:2D卷积图像解码器,3D卷积潜在表示生成器,以及视频生成器。

图1:视频生成模型示意图

图像解码器将来自目标视频的帧映射到潜在空间,潜在表示生成器学习对包含在输入帧中的信息进行合并。最后,视频生成器将潜在表示解码为视频中的帧。

研究人员表示,将潜在表示生成与视频解码分离对于成功实现中间视频至关重要,直接用开始帧和结束帧的编码表示生成视频的结果很差。为了解决这个问题,研究人员设计了潜在表示生成器,对帧的表示进行融合,并逐步增加生成视频的分辨率。

图2:模型生成的视频帧序列图,对于每个数据集上方的图表示模型生成的序列,下方为原视频,其中首帧和尾帧用于生成模型的采样。

实验结果

为了验证该方法,研究人员从三个数据集中获取视频 - BAIR机器人推送,KTH动作数据库和UCF101动作识别数据集 - 并将这些数据下采样至64 x 64像素的分辨率。每个样本总共包含16帧,其中的14帧由AI系统负责生成。

研究人员为每对视频帧运行100次模型,并对每个模型变量和数据集重复10次,在英伟达Tesla V100显卡平台上的训练时间约为5天。结果如下表所示:

表1:我们报告了完整模型和两个基线的平均FVD,对每个模型和数据集重复10次,每次运行100个epoch,表中FVD值越低,表示对应生成视频的质量越高。

表2:使用直接3D卷积和基于的替代方法的模型的平均SSIM

RNN(SDVI)或光流(SepConv和SuperSloMo),数值越高越好。

研究人员表示,AI生成的视频帧序列在风格上与给定的起始帧和结束帧保持一致,而且看上去说得通。“令人惊喜的是,这种方法可以在如此长的时间段内实现视频生成,”该团队表示,“这可能给未来的视频生成威廉希尔官方网站 研究提供了一个有用的替代视角。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1143

    浏览量

    40737
  • 谷歌
    +关注

    关注

    27

    文章

    6167

    浏览量

    105356
  • 智能系统
    +关注

    关注

    2

    文章

    394

    浏览量

    72451

原文标题:谷歌AI动画接龙:只用头尾两帧图像,片刻生成完整视频!

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    OpenAI开放Sora视频生成模型

    OpenAI近日宣布,其倾力打造的人工智能视频生成系统Sora已正式向美国及其他市场的ChatGPT Plus订阅用户开放。自去年首次公开预览以来,Sora历经约10个月的精心研发与优化,现已全面
    的头像 发表于 12-10 11:16 322次阅读

    欢创播报 腾讯元宝首发3D生成应用

    1 腾讯元宝首发3D生成应用 只需一张照片,便能迅速打造独一无二的3D角色。7月16日,腾讯旗下大模型应用“腾讯元宝”上线了“3D角色梦工厂
    的头像 发表于 07-18 11:39 755次阅读
    欢创播报 腾讯元宝首发<b class='flag-5'>3D</b><b class='flag-5'>生成</b>应用

    奥比中光3D相机打造高质量、低成本的3D动作捕捉与3D动画内容生成方案

      在过去几十年里,动作捕捉(MoCap)威廉希尔官方网站 经历了显著的发展,广泛被应用于电影、游戏、虚拟现实、医疗等多个领域。近期,奥比中光合作客户Moverse使用Orbbec Femto系列3D相机,打造
    的头像 发表于 06-25 16:37 1074次阅读

    Runway发布Gen-3 Alpha视频生成模型

    专为电影和图像内容创作者提供生成式AI工具的Runway公司近日宣布,其最新的Gen-3 Alpha视频生成模型已经正式问世。这款模型在多方面均取得了显著的进步,为创作者们带来了前所未有的便利和可能性。
    的头像 发表于 06-19 09:25 575次阅读

    谷歌发布全新视频生成模型Veo与Imagen文生图模型

    谷歌近日宣布了两项重大威廉希尔官方网站 进展,首先是视频生成模型Veo的正式推出。这款先进的模型能够支持生成质量更高的视频内容,让用户能够根据自己的需求设定光照、镜头语言、
    的头像 发表于 05-16 10:46 393次阅读

    阿里云视频生成威廉希尔官方网站 创新!视频生成使用了哪些AI威廉希尔官方网站 和算法

    照片就能让 EMO 合成演戏唱歌视频。   阿里云在视频生成领域的创新   EMO(Emote Portrait Alive)是一个由阿里巴巴集团智能计算研究院开发的框架,一个音频驱动的 AI 肖像
    的头像 发表于 05-08 00:07 3369次阅读

    NVIDIA生成式AI研究实现在1秒内生成3D形状

    NVIDIA 研究人员使 LATTE3D (一款最新文本转 3D 生成式 AI 模型)实现双倍加速。
    的头像 发表于 03-27 10:28 493次阅读
    NVIDIA<b class='flag-5'>生成</b>式AI<b class='flag-5'>研究</b>实现在1秒内<b class='flag-5'>生成</b><b class='flag-5'>3D</b>形状

    Stability AI推出Stable Video 3D模型,可制作多视角3D视频

    SV3D_u是Stable Video 3D的一个版本,仅需单幅图片即可生成运动轨迹视频,无须进行相机调整。扩充版本的SV3D_p加入了轨道
    的头像 发表于 03-21 14:57 1019次阅读

    新火种AI|围攻光明顶:Sora效应下的AI视频生成竞赛

    Sora的出现,让AI视频生成领域真正“活”了起来
    的头像 发表于 03-16 11:12 639次阅读

    openai发布首个视频生成模型sora

    美国当地时间2024年2月15日 ,OpenAI正式发布文生视频模型Sora ,并发布了48个文生视频案例和威廉希尔官方网站 报告 ,正式入局视频生成领域 。Sora能够根据提示词生成60s的连贯
    的头像 发表于 02-21 16:45 1262次阅读

    AI视频年大爆发!2023年AI视频生成领域的现状全盘点

    2023年,也是AI视频元年。过去一年究竟有哪些爆款应用诞生,未来视频生成领域面临的难题还有哪些?
    的头像 发表于 02-20 10:40 1221次阅读
    AI<b class='flag-5'>视频</b>年大爆发!2023年AI<b class='flag-5'>视频生成</b>领域的现状全盘点

    OpenAI发布文生视频模型Sora,引领AI视频生成新纪元

    在人工智能(AI)领域掀起新一轮革命浪潮的,正是OpenAI最新推出的文生视频大模型——Sora。这款被业界广泛赞誉的模型,以其“逼真”和“富有想象力”的视频生成能力,彻底颠覆了传统视频生成领域的局限,将平均
    的头像 发表于 02-19 11:03 949次阅读

    OpenAI发布首个视频生成模型Sora

    OpenAI近日宣布推出其全新的文本到视频生成模型——Sora。这一突破性的威廉希尔官方网站 将视频创作带入了一个全新的纪元,为用户提供了前所未有的创作可能性。
    的头像 发表于 02-18 10:07 1059次阅读

    介绍一种使用2D材料进行3D集成的新方法

    美国宾夕法尼亚州立大学的研究人员展示了一种使用2D材料进行3D集成的新颖方法。
    的头像 发表于 01-13 11:37 1065次阅读

    4DGen:基于动态3D高斯的可控4D生成新工作

    尽管3D视频生成取得了飞速的发展,由于缺少高质量的4D数据集,4D生成始终面临着巨大的挑战。
    的头像 发表于 01-04 15:57 933次阅读
    4DGen:基于动态<b class='flag-5'>3D</b>高斯的可控4<b class='flag-5'>D</b><b class='flag-5'>生成</b>新工作