0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Adobe提出DMV3D:3D生成只需30秒!让文本、图像都动起来的新方法!

CVer 来源:机器之心 2024-01-30 16:20 次阅读

3D 生成是 AI 视觉领域的研究热点之一。本文中,来自 Adobe 研究院和斯坦福大学等机构的研究者利用基于 transformer 的 3D 大型重建模型来对多视图扩散进行去噪,并提出了一种新颖的 3D 生成方法 DMV3D,实现了新的 SOTA 结果。

2D 扩散模型极大地简化了图像内容的创作流程,2D 设计行业也因此发生了变革。近来,扩散模型已扩展到 3D 创作领域,减少了应用程序(如 VR、AR、机器人威廉希尔官方网站 和游戏等)中的人工成本。有许多研究已经对使用预训练的 2D 扩散模型,生成具有评分蒸馏采样(SDS)损失的 NeRFs 方法进行了探索。然而,基于 SDS 的方法通常需要花费数小时来优化资源,并且经常引发图形中的几何问题,比如多面 Janus 问题。 另一方面,研究者对无需花费大量时间优化每个资源,也能够实现多样化生成的 3D 扩散模型也进行了多种尝试。这些方法通常需要获取包含真实数据的 3D 模型 / 点云用于训练。然而,对于真实图像来说,这种训练数据难以获得。由于目前的 3D 扩散方法通常基于两阶段训练,这导致在不分类、高度多样化的 3D 数据集上存在一个模糊且难以去噪的潜在空间,使得高质量渲染成为亟待解决的挑战。

为了解决这个问题,已经有研究者提出了单阶段模型,但这些模型大多数只针对特定的简单类别,泛化性较差。

因此,本文研究者的目标是实现快速、逼真和通用的 3D 生成。为此,他们提出了 DMV3D。DMV3D 是一种全新的单阶段的全类别扩散模型,能直接根据模型文字或单张图片的输入,生成 3D NeRF。在单个 A100 GPU 上,仅需 30 秒,DMV3D 就能生成各种高保真 3D 图像。

c8abfcd6-b8c3-11ee-8b88-92fbcf53809c.png

具体来讲,DMV3D 是一个 2D 多视图图像扩散模型,它将 3D NeRF 重建和渲染集成到其降噪器中,以端到端的方式进行训练,而无需直接 3D 监督。这避免了单独训练用于潜在空间扩散的 3D NeRF 编码器(如两阶段模型)和繁琐的对每个对象进行优化的方法(如 SDS)中会出现的问题。

本质上,本文的方法是对 2D 多视图扩散的框架进行 3D 重建。这种方法受到了 RenderDiffusion 的启发,它是一种通过单视图扩散实现 3D 生成的方法。然而,RenderDiffusion 的局限性在于,训练数据需要特定类别的先验知识,数据中的对象也需要特定的角度或姿势,因此泛化性很差,无法对任意类型的对象进行 3D 生成。

相比之下,研究者认为一组稀疏的包含一个对象的四个多视角的投影,足以描述一个没有被遮挡的 3D 物体。这种训练数据的输入源于人类的空间想象能力。他们可以根据几个对象的周围的平面视图,想象出一个完整的 3D 物体。这种想象通常是非常确定和具像化的。

然而,利用这种输入本质上仍需解决稀疏视图下 3D 重建的任务。这是一个长期存在的问题,即使在输入没有噪声的情况下,也是一个非常具有挑战性的问题。

本文的方法能够基于单个图像 / 文本实现 3D 生成。对于图像输入,他们固定一个稀疏视图作为无噪声输入,并对其他视图进行类似于 2D 图像修复的降噪。为了实现基于文本的 3D 生成,研究者使用了在 2D 扩散模型中通常会用到的、基于注意力的文本条件和不受类型限制的分类器。

他们只采用了图像空间监督,在 Objaverse 合成的图像和 MVImgNet 真实捕获的图像组成的大型数据集上进行了训练。从结果来看,DMV3D 在单图像 3D 重建方面取得了 SOTA,超越了先前基于 SDS 的方法和 3D 扩散模型。DMV3D 生成的基于文本的 3D 模型,也优于此前的方法。

c8b1ba0e-b8c3-11ee-8b88-92fbcf53809c.png

论文地址:https://arxiv.org/pdf/2311.09217.pdf

官网地址:https://justimyhxu.github.io/projects/dmv3d/

我们来看一下生成的 3D 图像效果。

c8c91d48-b8c3-11ee-8b88-92fbcf53809c.gif

c8d16c5a-b8c3-11ee-8b88-92fbcf53809c.gif

方法概览 单阶段 3D 扩散模型是如何训练并推理的呢? 研究者首先引入了一种新的扩散框架,该框架使用基于重建的降噪器来对有噪声的多视图图像去噪以进行 3D 生成;其次他们提出了一种新的、以扩散时间步为条件的、基于 LRM 的多视图降噪器,从而通过 3D NeRF 重建和渲染来渐进地对多视图图像进行去噪;最后进一步对模型进行扩散,支持文本和图像调节,实现可控生成。

多视图扩散和去噪

多视图扩散。2D扩散模型中处理的原始 x_0 分布在数据集中是单个图像分布。相反,研究者考虑的是多视图图像

c9084b12-b8c3-11ee-8b88-92fbcf53809c.png

的联合分布,其中每组

c91048d0-b8c3-11ee-8b88-92fbcf53809c.png

都是从视点 C = {c_1, .. ., c_N} 中相同 3D 场景(资产)的图像观察结果。扩散过程相当于使用相同的噪声调度独立地对每个图像进行扩散操作,如下公式(1) 所示。

c917a062-b8c3-11ee-8b88-92fbcf53809c.png

基于重建的去噪。2D 扩散过程的逆过程本质上是去噪。本文中,研究者提出利用 3D 重建和渲染来实现 2D 多视图图像去噪,同时输出干净的、用于 3D 生成的 3D 模型。具体来讲,他们使用 3D 重建模块 E (・) 来从有噪声的多视图图像

c923f25e-b8c3-11ee-8b88-92fbcf53809c.png

中重建 3D 表示 S,并使用可微渲染模块 R (・) 对去噪图像进行渲染,如下公式 (2) 所示。

c92d43b8-b8c3-11ee-8b88-92fbcf53809c.png

基于重建的多视图降噪器

研究者基于 LRM 构建了多视图降噪器,并使用大型 transformer 模型从有噪声的稀疏视图姿态图像中重建了一个干净的三平面 NeRF,然后将重建后的三平面 NeRF 的渲染用作去噪输出。

重建和渲染。如下图 3 所示,研究者使用一个 Vision Transformer(DINO)来将输入图像

c938e894-b8c3-11ee-8b88-92fbcf53809c.png

转化为 2D token,然后使用 transformer 将学得的三平面位置嵌入映射到最后的三平面,以表示资产的 3D 形状和外观。接下来将预测到的三平面用来通过一个 MLP 来解码体积密度和颜色,以进行可微体积渲染。

c940bcb8-b8c3-11ee-8b88-92fbcf53809c.png

时间调节。与基于 CNN 的 DDPM(去噪扩散概率模型)相比,本文基于 transformer 的模型需要不同的时间调节设计。

相机调节。在具有高度多样化的相机内参和外参的数据集(如 MVImgNet)上训练本文的模型时,研究者表示需要对输入相机调节进行有效的设计,以促使模型理解相机并实现 3D 推理。

在单个图像或文本上调节

以上方法使研究者提出的模型可以充当一个无条件生成模型。他们介绍了如何利用条件降噪器

c955b3b6-b8c3-11ee-8b88-92fbcf53809c.png

来对条件概率分布进行建模,其中 y 表示文本或图像,以实现可控 3D 生成。

图像调节。研究者提出了一种简单但有效的图像调节策略,其中不需要改变模型的架构。

文本调节。为了将文本调节添加到自己的模型中,研究者采用了类似于 Stable Diffusion 的策略。他们使用 CLIP 文本编码器生成文本嵌入,并使用交叉注意力将它们注入到降噪器中。

训练和推理

训练。在训练阶段,研究者在范围 [1, T] 内均匀地采样时间步 t,并根据余弦调度来添加噪声。他们使用随机相机姿态对输入图像进行采样,还随机采样额外的新视点来监督渲染以获得更好的质量。

研究者使用条件信号 y 来最小化以下训练目标。

c964e192-b8c3-11ee-8b88-92fbcf53809c.png

推理。在推理阶段,研究者选择了以圆圈均匀围绕对象的视点,以确保很好地覆盖生成的 3D 资产。他们将四个视图的相机市场角固定为 50 度。

实验结果

在实验环节,研究者使用了 AdamW 优化器来训练自己的模型,其中初始学习率为 4e^-4。他们针对该学习率使用了 3K 步的预热和余弦衰减,使用 256 × 256 输入图像来训练降噪器,对 128 × 128 的裁剪图像进行渲染以进行监督。

关于数据集,研究者的模型只需多视图姿态图像来训练,因而使用来自 Objaverse 数据集的约 730k 个对象的渲染后多视图图像。对于每个对象,他们按照 LRM 的设置,在对固定 50 度 FOV 的随机视点均匀照明下,渲染了 32 张图像。

首先是单图像重建。研究者将自己的图像 - 调节模型与 Point-E、Shap-E、Zero-1-to-3 和 Magic123 等以往方法在单图像重建任务上进行了比较。他们使用到的指标有 PSNR、LPIPS、CLIP 相似性得分和 FID,以评估所有方法的新视图渲染质量。

下表 1 分别展示了 GSO 和 ABO 测试集上的定量结果。研究者的模型优于所有基线方法,并在两个数据集上实现所有指标的新 SOTA。

c983cdd2-b8c3-11ee-8b88-92fbcf53809c.png

图 4 为定性结果,相比基线,本文模型生成的结果具有更高质量的几何和更清晰的外观细节。

相比之下,DMV3D 是一个以 2D 图像为训练目标的单阶段模型,无需对每个资产单独优化,在消除多视图扩散噪声的同时,直接生成 3D NeRF 的模型。总的来说,DMV3D 可以快速生成 3D 图像,并获得最优的单图像 3D 重建结果。

c996bb7c-b8c3-11ee-8b88-92fbcf53809c.png

从文本到 3D。研究者还评估了 DMV3D 基于文本的 3D 生成结果。研究者将 DMV3D 和同样能够支持全类别的快速推理的 Shap-E 和 Point-E 进行了比较。研究者让三个模型根据 Shap-E 的 50 个文本提示进行生成,并使用了两个不同的 ViT 模型的 CLIP 精度和平均精度来评估生成结果,如表 2 所示。

c9ad2f10-b8c3-11ee-8b88-92fbcf53809c.png

从表中可以看出,DMV3D 表现出了最佳的精度。图 5 中是定性结果,相比于其他模型的生成结果,DMV3D 生成的图形明显包含更丰富的几何和外观细节,结果也更逼真。

c9b9ab1e-b8c3-11ee-8b88-92fbcf53809c.png

其他结果

在视角方面,研究者在表 3 和图 8 中显示了用不同数量(1、2、4、6)的输入视图训练的模型的定量和定性比较。

c9d5d7a8-b8c3-11ee-8b88-92fbcf53809c.png

c9e3962c-b8c3-11ee-8b88-92fbcf53809c.png

在多实例生成方面,与其他扩散模型类似,本文提出的模型可以根据随机输入生成多种示例,如图 1 所示,展示了该模型生成结果的泛化性。

c9f45f5c-b8c3-11ee-8b88-92fbcf53809c.png

在应用方面,DMV3D 具备广泛的灵活性和通用性,在 3D 生成应用领域具备较强的发展潜力。如图 1 和图 2 所示,本文方法能够在图像编辑应用程序中通过分割(如 SAM)等方法将 2D 照片中的任意对象提升到 3D 的维度。

更多威廉希尔官方网站 细节和实验结果请查阅原论文。

ca0dc5c8-b8c3-11ee-8b88-92fbcf53809c.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3639

    浏览量

    134440
  • 3D
    3D
    +关注

    关注

    9

    文章

    2875

    浏览量

    107491
  • Transformer
    +关注

    关注

    0

    文章

    143

    浏览量

    5997

原文标题:ICLR 2024 | Adobe提出DMV3D:3D生成只需30秒!让文本、图像都动起来的新方法!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    欢创播报 腾讯元宝首发3D生成应用

    1 腾讯元宝首发3D生成应用 只需一张照片,便能迅速打造独一无二的3D角色。7月16日,腾讯旗下大模型应用“腾讯元宝”上线了“3D角色梦工厂
    的头像 发表于 07-18 11:39 752次阅读
    欢创播报 腾讯元宝首发<b class='flag-5'>3D</b><b class='flag-5'>生成</b>应用

    裸眼3D笔记本电脑——先进的光场裸眼3D威廉希尔官方网站

    效果的用户,这款笔记本电脑都能满足你的需求。 一、卓越的3D模型设计能力 英伦科技裸眼3D笔记本电脑采用最新的光场裸眼3D威廉希尔官方网站 ,使用户无需佩戴3D眼镜就能看到立体的
    的头像 发表于 07-16 10:04 518次阅读

    奥比中光3D相机打造高质量、低成本的3D动作捕捉与3D动画内容生成方案

    高质量、低成本的3D动作捕捉与3D动画内容生成方案。 Moverse公司总部位于希腊塞萨洛尼基,是三维动画相关媒体和娱乐行业的一家科技创业公司。基于奥比中光3D相机,Moverse可以
    的头像 发表于 06-25 16:37 1070次阅读

    什么是光场裸眼3D

    光场裸眼3D威廉希尔官方网站 ,是一种无需任何辅助设备(如3D眼镜或头显)即可产生真实三维效果的威廉希尔官方网站 。它通过特殊的显示设备,精确控制光线的方向和强度,使观察者在不同的角度都能看到清晰、连续的立体图像。这种威廉希尔官方网站 的核心在于模拟人眼对真实世界的观察
    的头像 发表于 05-27 14:21 1078次阅读
    什么是光场裸眼<b class='flag-5'>3D</b>?

    PMSM简单的动起来的话,需要调用哪些头文件?

    PMSM简单的动起来的话,需要调用那些头文件,最好解释下作用。手头有控制器,但代码太多是在看不明白。先谢过各位大佬了
    发表于 04-26 07:34

    步进电机如何动起来?步进电机转动原理

    42步进电机的步距角为1.8°,是由定子和转子的齿数共同决定的,定子有48齿,转子有50齿,具体是怎么算的,感兴趣的同学可以自行学习,今天的重点是让步进电机如何动起来
    发表于 04-01 10:40 2364次阅读
    步进电机如何<b class='flag-5'>让</b><b class='flag-5'>动起来</b>?步进电机转动原理

    NVIDIA生成式AI研究实现在1生成3D形状

    NVIDIA 研究人员使 LATTE3D (一款最新文本3D 生成式 AI 模型)实现双倍加速。
    的头像 发表于 03-27 10:28 492次阅读
    NVIDIA<b class='flag-5'>生成</b>式AI研究实现在1<b class='flag-5'>秒</b>内<b class='flag-5'>生成</b><b class='flag-5'>3D</b>形状

    Stability AI推出Stable Video 3D模型,可制作多视角3D视频

    SV3D_u是Stable Video 3D的一个版本,仅需单幅图片即可生成运动轨迹视频,无须进行相机调整。扩充版本的SV3D_p加入了轨道视图的特性,使其可以根据预设的相机路径创建
    的头像 发表于 03-21 14:57 1018次阅读

    Adobe Substance 3D整合AI功能:基于文本生成纹理、背景

    Substance 3D Stager是以Adobe Dimension为基础改造而成,使用者可直观地进行3D场景构建,包括模型、材质和灯光等要素。借助其强大功能,能够生成极具观赏性的
    的头像 发表于 03-20 10:28 721次阅读

    2张图2钟完成3D建模!3D内容生成工具DUSt3R爆火,国产厂商有哪些机会?

    电子发烧友网报道(文/吴子鹏)近日,一款名为DUSt3R的AI新工具在GitHub上爆火。DUSt3R能够在短短2钟内通过仅有2张图片完成3D 重建,
    的头像 发表于 03-06 00:10 4053次阅读
    2张图2<b class='flag-5'>秒</b>钟完成<b class='flag-5'>3D</b>建模!<b class='flag-5'>3D</b>内容<b class='flag-5'>生成</b>工具DUSt<b class='flag-5'>3</b>R爆火,国产厂商有哪些机会?

    Nullmax提出多相机3D目标检测新方法QAF2D

    今天上午,计算机视觉领域顶会CVPR公布了最终的论文接收结果,Nullmax感知部门的3D目标检测研究《Enhancing 3D Object Detection with 2D Detection-Guided Query A
    的头像 发表于 02-27 16:38 1133次阅读
    Nullmax<b class='flag-5'>提出</b>多相机<b class='flag-5'>3D</b>目标检测<b class='flag-5'>新方法</b>QAF2<b class='flag-5'>D</b>

    介绍一种使用2D材料进行3D集成的新方法

    美国宾夕法尼亚州立大学的研究人员展示了一种使用2D材料进行3D集成的新颖方法
    的头像 发表于 01-13 11:37 1061次阅读

    友思特C系列3D相机:实时3D点云图像

    3D相机
    虹科光电
    发布于 :2024年01月10日 17:39:25

    如何搞定自动驾驶3D目标检测!

    可用于自动驾驶场景下基于图像3D目标检测的数据集总结。其中一些数据集包括多个任务,这里只报告了3D检测基准(例如KITTI 3D发布了超过40K的
    发表于 01-05 10:43 584次阅读
    如何搞定自动驾驶<b class='flag-5'>3D</b>目标检测!

    4DGen:基于动态3D高斯的可控4D生成新工作

    尽管3D和视频生成取得了飞速的发展,由于缺少高质量的4D数据集,4D生成始终面临着巨大的挑战。
    的头像 发表于 01-04 15:57 930次阅读
    4DGen:基于动态<b class='flag-5'>3D</b>高斯的可控4<b class='flag-5'>D</b><b class='flag-5'>生成</b>新工作