0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

清华朱军团队提出ProlificDreamer:直接文本生成高质量3D内容

CVer 来源:机器之心 2023-05-29 10:02 次阅读

清华大学 TSAIL 团队最新提出的文生 3D 新算法 ProlificDreamer,在无需任何 3D 数据的前提下能够生成超高质量的 3D 内容。

ProlificDreamer 算法为文生 3D 领域带来重大进展。利用 ProlificDreamer,输入文本 “一个菠萝”,就能生成非常逼真且高清的 3D 菠萝:

8a709276-fd82-11ed-90ce-dac502259ad0.gif

给出稍微难一些的文本,比如 “一只米开朗琪罗风格狗的雕塑,正在用手机读新闻”,ProlificDreamer 的生成也不在话下:

8e5bc13a-fd82-11ed-90ce-dac502259ad0.gif

将 Imagen 生成的照片(下图静态图)和 ProlificDreamer(基于 Stable-Diffusion)生成的 3D(下图动态图)进行对比。有网友感慨:短短一年时间,高质量的生成已经能够从 2D 图像领域扩展到 3D 领域了!

8f955250-fd82-11ed-90ce-dac502259ad0.gif

A blue jay standing on alarge basket of rainbow macarons 这一切都来源于清华大学计算机系朱军教授带领的 TSAIL 团队近期公开的一篇论文《ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation》:

98c9572c-fd82-11ed-90ce-dac502259ad0.png

论文链接:https://arxiv.org/abs/2305.16213

项目主页:https://ml.cs.tsinghua.edu.cn/prolificdreamer/

在数字创作和虚拟现实等领域,从文本到三维模型(Text-to-3D)的威廉希尔官方网站 具有重要的价值和广泛的应用潜力。这种威廉希尔官方网站 可以从简单的文本描述中生成具体的 3D 模型,为设计师、游戏开发者和数字艺术家提供强大的工具。 然而,为了根据文本生成准确的 3D 模型,传统方法需要大量的标记 3D 模型数据集。这些数据集需要包含多种不同类型和风格的 3D 模型,并且每个模型都需要与相应的文本描述相关联。创建这样的数据集需要大量的时间和人力资源,目前还没有现成的大规模数据集可供使用。 由谷歌提出的 DreamFusion [1] 利用预训练的 2D 文本到图像扩散模型,首次在无需 3D 数据的情况下完成开放域的文本到 3D 的合成。但是 DreamFusion 提出的 Score Distillation Sampling (SDS) [1] 算法生成结果面临严重的过饱和、过平滑、缺少细节等问题。高质量 3D 内容生成目前仍然是非常困难的前沿问题之一。 ProlificDreamer 论文提出了 Variational Score Distillation(VSD)算法,从贝叶斯建模和变分推断(variational inference)的角度重新形式化了 text-to-3D 问题。具体而言,VSD 把 3D 参数建模为一个概率分布,并优化其渲染的二维图片的分布和预训练 2D 扩散模型的分布间的距离。可以证明,VSD 算法中的 3D 参数近似了从 3D 分布中采样的过程,解决了 DreamFusion 所提 SDS 算法的过饱和、过平滑、缺少多样性等问题。此外,SDS 往往需要很大的监督权重(CFG=100),而 VSD 是首个可以用正常 CFG(=7.5)的算法。效果展示ProlificDreamer 可以根据文本生成非常高质量的带纹理的三维网格:

98ea2da8-fd82-11ed-90ce-dac502259ad0.png

ProlificDreamer 可以根据文本生成非常高质量的三维神经辐射场(NeRF),包括复杂的效果。甚至 360° 的场景也能生成:

99788238-fd82-11ed-90ce-dac502259ad0.png

ProlificDreamer 还可以在给出同样文本的情况下生成具有多样性的 3D 内容:

998b834c-fd82-11ed-90ce-dac502259ad0.png

传统文生 3D 的优化算法给定一个 2D 图片上预训练好的扩散模型(例如 stable-diffusion),Dreamfusion [1] 提出可以在不借助任何 3D 数据的情况下实现开放域的文到 3D 内容(text-to-3D)生成。具体而言,对于一个 3D 物体,文生 3D 任务的关键是设计一种优化算法,使得 3D 物体在各个视角下投影出来的 2D 图片与预训练的 2D 扩散模型匹配,并不断优化 3D 物体。其中,SDS [1] (也称为 Score Jacobian Chaining (SJC) [3]) 是目前几乎所有的零样本开放域文生 3D 工作所使用的算法。该算法将 3D 物体视为一个单点(single point),并通过随机梯度下降优化该 3D 物体,优化目标是最大化该渲染的 2D 图像在预训练扩散模型下的似然值。值得注意的是,该优化问题的最优解并不等价于从扩散模型中采样。

99cac3c2-fd82-11ed-90ce-dac502259ad0.png

传统文生 3D 的优化算法示意图 实验中,所有基于 SDS/SJC 的方法目前都有一个严重的问题:生成的物体过于平滑、过饱和现象严重,并且多样性不高。例如,开源库 threestudio [4] 将目前主流的 text-to-3D 工作复现至与原论文可比水平,如下图所示:

99da1390-fd82-11ed-90ce-dac502259ad0.png

由 threestuidio [4] 复现的文生 3D 工作 在此之前,基于 2D 扩散模型的文生 3D 仍然与实践落地有较大差距。然而,清华大学朱军团队提出的 ProlificDreamer 在算法层面解决了 SDS 的上述问题,能够生成非常逼真的 3D 内容,极大地缩小了这一差距。ProlificDreamer 的原理与以往方法不同,ProlificDreamer 并不单纯优化单个 3D 物体,而是优化 3D 物体对应的概率分布。通常而言,给定一个有效的文本输入,存在一个概率分布包含了该文本描述下所有可能的 3D 物体。

9a0f3606-fd82-11ed-90ce-dac502259ad0.png

给定文本下的 3D 物体存在一个潜在的概率分布 基于该 3D 概率分布,我们可以进一步诱导出一个 2D 概率分布。具体而言,只需要对每一个 3D 物体经过相机渲染到 2D,即可得到一个 2D 图像的概率分布。

9a3f99d6-fd82-11ed-90ce-dac502259ad0.png

由潜在 3D 分布可以诱导出一个 2D 图像分布 因此,优化 3D 分布可以被等效地转换为优化 2D 渲染图片的概率分布与 2D 扩散模型定义的概率分布之间的距离(由 KL 散度定义)。这是一个经典的变分推断(variational inference)任务,因此 ProlificDreamer 文中将该任务及对应的算法称为变分得分蒸馏(Variational Score Distillation,VSD)。

9a7edf60-fd82-11ed-90ce-dac502259ad0.png

优化 3D 分布可以被等效地转换为优化 2D 图片之间的概率分布 具体而言,VSD 的算法流程图如下所示。其中,3D 物体的迭代更新需要使用两个模型:一个是预训练的 2D 扩散模型(例如 Stable-Diffusion),另一个是基于该预训练模型的 LoRA(low-rank adaptation)。该 LoRA 估计了当前 3D 物体诱导的 2D 图片分布的得分函数(score function),并进一步用于更新 3D 物体。该算法实际上在interwetten与威廉的赔率体系 Wasserstein 梯度流,并可以保证收敛得到的分布满足与预训练的 2D 扩散模型的 KL 散度最小。

9aa4f5d8-fd82-11ed-90ce-dac502259ad0.png

VSD 的训练流程图 与传统的 SDS/SJC 算法相比,可以发现 VSD 仅仅需要把原来的高斯噪声项换成 LoRA 项即可。由于LoRA 提供了比高斯噪声更精细的更新方向(例如,LoRA 可以利用文本 y、相机视角 c、扩散时间 t 等的先验信息),VSD 在实践中可以得到远超 SDS 的精细结果。并且,论文作者提出,SDS/SJC 实际上是 VSD 使用一个单点 Dirac 分布作为变分分布的特例,而 VSD 扩展到了由 LoRA 定义的更复杂的概率分布,因此可以得到更好的结果。此外,VSD 还对监督权重(CFG)更友好,可以使用与 2D 扩散模型一样的监督权重(例如 stable-diffusion 常用的 CFG=7.5),因此可以达到和 2D 扩散模型类似的采样质量。这一结果首次解决了 SDS/SJC 中的超大 CFG(一般为 100)的问题,也同时说明 VSD 这种基于分布优化的思想与预训练的 2D 扩散模型更适配。

9ab308d0-fd82-11ed-90ce-dac502259ad0.png

SDS/SJC 与 VSD 的更新公式对比 最后,ProlificDreamer 还对 3D 表示的设计空间做了详细的研究,提出了如下实现。在实践中,VSD 可以在 512 渲染分辨率的 NeRF 下训练,并极大地丰富了所得到的 3D 结果的纹理细节。

9ad2242c-fd82-11ed-90ce-dac502259ad0.png

ProlificDreamer 与其它工作的实现细节比较

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 3D
    3D
    +关注

    关注

    9

    文章

    2875

    浏览量

    107495
  • 算法
    +关注

    关注

    23

    文章

    4608

    浏览量

    92845
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24691

原文标题:无需任何3D数据!清华朱军团队提出ProlificDreamer:直接文本生成高质量3D内容

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何设计高质量低成本的3D眼镜_Designing Cost-Effective 3D Technol...

    如何设计高质量低成本的3D眼镜_Designing Cost-Effective 3D Technology ByRobert Murphy, Cypress Semiconductor作者
    发表于 06-18 13:56

    阿里3D AI威廉希尔官方网站 已成功应用诸多场景中,可迅速批量生产高质量3D模型

    阿里资深算法专家乐田表示:“3D重建是3D机器学习的核心,只有在高质量3D数据集支持下,工业级3D AI建模才能满足更大规模的产业需求。”目
    发表于 08-26 13:50 1578次阅读

    面向社交媒体的高质量文章内容识别模型

    如何从海量多媒体文章中自动识别高质量内容是信息推荐、搜索引擎等系统的核心功能之一。现有的方法在训练中依赖大量的人工标注数据。针对其未考虑社交媒体中的社交信息和视觉内容的问题,提出一种基
    发表于 05-11 11:09 11次下载

    基于视觉注意力的全卷积网络3D内容生成方法

     由于在某些特殊场景中获取深度线索的难度较高,使得已有3D内容生成方法的应用受到限制。为此,以显著图代替深度图进行2D-3D转换,提出一种
    发表于 05-13 16:13 11次下载

    文本生成任务中引入编辑方法的文本生成

    4. FELIX FELIX是Google Research在“FELIX: Flexible Text Editing Through Tagging and Insertion”一文中提出文本生成
    的头像 发表于 07-23 16:56 1734次阅读
    <b class='flag-5'>文本生成</b>任务中引入编辑方法的<b class='flag-5'>文本生成</b>

    NVIDIA提出Magic3D:高分辨率文本3D内容创建

    Magic3D 还可以执行基于提示的 3D 网格编辑:给定低分辨率 3D 模型和基本提示,可以更改文本从而修改生成的模型
    的头像 发表于 11-25 11:33 1129次阅读

    Meta提出Make-A-Video3D:一行文本生成3D动态场景!

    具体而言,该方法运用 4D 动态神经辐射场(NeRF),通过查询基于文本到视频(T2V)扩散的模型,优化场景外观、密度和运动的一致性。任意机位或角度都可以观看到提供的文本生成的动态视频输出,并可以
    的头像 发表于 03-24 10:47 1047次阅读

    面向结构化数据的文本生成威廉希尔官方网站 研究

    今天我们要讲的文本生成是现在最流行的研究领域之一。文本生成的目标是让计算机像人类一样学会表达,目前看基本上接近实现。这些突然的威廉希尔官方网站 涌现,使得计算机能够撰写出高质量的自然文本,满足特定的
    的头像 发表于 06-26 14:39 624次阅读
    面向结构化数据的<b class='flag-5'>文本生成</b>威廉希尔官方网站
研究

    生成高质量 3D 网格,从重建到生成式 AI

    有很多优点,包括支持现有的软件包、高级硬件加速,以及支持物理模拟。然而,并非所有网格都是相同的,只有高质量的网格才能实现这些优点。 NVIDIA Research 提出了一种名为“FlexiCubes”的新方法,它可以在 3D
    的头像 发表于 08-17 19:15 722次阅读
    <b class='flag-5'>生成</b><b class='flag-5'>高质量</b> <b class='flag-5'>3D</b> 网格,从重建到<b class='flag-5'>生成</b>式 AI

    3D人体生成模型HumanGaussian实现原理

    3D 生成领域,根据文本提示创建高质量3D 人体外观和几何形状对虚拟试穿、沉浸式远程呈现等应用有深远的意义。传统方法需要经历一系列人
    的头像 发表于 12-20 16:37 1602次阅读
    <b class='flag-5'>3D</b>人体<b class='flag-5'>生成</b>模型HumanGaussian实现原理

    4DGen:基于动态3D高斯的可控4D生成新工作

    尽管3D和视频生成取得了飞速的发展,由于缺少高质量的4D数据集,4D生成始终面临着巨大的挑战。
    的头像 发表于 01-04 15:57 930次阅读
    4DGen:基于动态<b class='flag-5'>3D</b>高斯的可控4<b class='flag-5'>D</b><b class='flag-5'>生成</b>新工作

    Adobe提出DMV3D3D生成只需30秒!让文本、图像都动起来的新方法!

    因此,本文研究者的目标是实现快速、逼真和通用的 3D 生成。为此,他们提出了 DMV3D。DMV3D 是一种全新的单阶段的全类别扩散模型,能
    的头像 发表于 01-30 16:20 854次阅读
    Adobe<b class='flag-5'>提出</b>DMV<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b><b class='flag-5'>生成</b>只需30秒!让<b class='flag-5'>文本</b>、图像都动起来的新方法!

    奥比中光3D相机打造高质量、低成本的3D动作捕捉与3D动画内容生成方案

    高质量、低成本的3D动作捕捉与3D动画内容生成方案。 Moverse公司总部位于希腊塞萨洛尼基,是三维动画相关媒体和娱乐行业的一家科技创业公
    的头像 发表于 06-25 16:37 1070次阅读

    Meta推出革命性3D Gen AI模型:1分钟内生成高质量3D内容

    在科技日新月异的今天,Meta再次引领创新潮流,宣布了一项令人瞩目的威廉希尔官方网站 突破——3D Gen AI模型的诞生。这款先进的模型以其前所未有的高效性与卓越品质,重新定义了3D内容创作的边界,标志着数字艺术创作进入了一个全新的快速响应
    的头像 发表于 07-04 18:12 1015次阅读

    如何使用 Llama 3 进行文本生成

    使用LLaMA 3(Large Language Model Family of AI Alignment)进行文本生成,可以通过以下几种方式实现,取决于你是否愿意在本地运行模型或者使用现成的API
    的头像 发表于 10-27 14:21 359次阅读