牛津博士论文学习重建和分割3D物体，突破AI和机器理解的界限-电子发烧友网

让机器拥有像人类一样感知 3D 物体和环境的能力，是人工智能领域的一项重要课题。牛津大学计算机科学系博士生 Bo Yang 在其毕业论文中详细解读了如何重建和分割 3D 物体，进而赋予机器感知 3D 环境的能力，突破了人工智能和机器理解的界限。

赋予机器像人类一样感知三维真实世界的能力，这是人工智能领域的一个根本且长期存在的主题。考虑到视觉输入具有不同类型，如二维或三维传感器获取的图像或点云，该领域研究中一个重要的目标是理解三维环境的几何结构和语义。

传统方法通常利用手工构建的特征来估计物体或场景的形状和语义。但是，这些方法难以泛化至新物体和新场景，也很难克服视觉遮挡的关键问题。

今年九月毕业于牛津大学计算机科学系的博士生 Bo Yang 在其毕业论文《Learning to Reconstruct and Segment 3D Objects》中对这一主题展开了研究。与传统方法不同，作者通过在大规模真实世界的三维数据上训练的深度神经网络来学习通用和鲁棒表示，进而理解场景以及场景中的物体。

总体而言，本文开发了一系列新型数据驱动算法，以实现机器感知到真实世界三维环境的目的。作者表示：「本文可以说是突破了人工智能和机器理解的界限。」

这篇博士论文有 143 页，共六章。机器之心对该论文的核心内容进行了简要介绍，感兴趣的读者可以阅读论文原文。

论文地址：https://arxiv.org/pdf/2010.09582.pdf

论文概述

作者在第 2 章首先回顾了以往 3D 物体重建和分割方面的研究工作，包括单视图和多视图 3D 物体重建、3D 点云分割、对抗生成网络（GAN）、注意力机制以及集合上的深度学习。此外，本章最后还介绍了在单视图 / 多视图 3D 重建和 3D 点云分割方面，该研究相较于 SOTA 方法的新颖之处。

基于单视图的 3D 物体重建

在第 3 章，作者提出以一种基于 GAN 的深度神经架构来从单一的深度视图学习物体的密集 3D 形状。作者将这种简单但有效的模型称为 3D-RecGAN++，它将残差连接（skip-connected）的 3D 编码器 - 解码器和对抗学习结合，以生成单一 2.5D 视图条件下的完整细粒度 3D 结构。该模型网络架构的训练和测试流程如下图所示：

接着，作者利用条件对抗训练来细化编码器 - 解码器估计的 3D 形状，其中用于 3D 形状细化的判别器结构示意图如下：

最后，作者将提出的 3D-RecGAN++ 与 SOTA 方法做了对比，并进行了控制变量研究。在合成和真实数据集上的大量实验结果表明，该模型性能良好。

基于多视图的 3D 物体重建

在第 4 章，作者提出以一种新的基于注意力机制的神经模块来从多视图中推理出更好的 3D 物体形状。这种简单但高效的注意力聚合模块被称为 AttSets，其结构如下图所示。与现有方法相比，这种方法可以学习从不同图像中聚合有用信息。

此外，研究者还引入了两阶段训练算法，以确保在给出一定数量输入图像的情况下，预估的 3D 形状具有鲁棒性。研究者在多个数据集上进行了实验，证明该方法能够精确地恢复物体的 3D 形状。

从点云中学习分割 3D 物体

在第五章中，研究者提出了一个新的框架来识别大规模 3D 场景中的所有单个 3D 物体。与现有的研究相比，该研究的框架能够直接并且同时进行检测、分割和识别所有的目标实例，而无需任何繁琐的前 / 后处理步骤。研究者在多个大型实际数据集上展现了该方法相对于基线的性能提升。

作者介绍

本文作者 Bo Yang 现为香港理工大学计算机系助理教授。他本科和硕士分别毕业于北京邮电大学和香港大学，然后进入牛津大学计算机科学系攻读博士学位，其导师为 Niki Trigoni 和 Andrew Markham 教授。

Bo Yang 作为一作以及合著的论文曾被《计算机视觉国际期刊》（IJCV）以及 NeurIPS 和 CVPR 等学术会议接收，谷歌学术主页上显示他共著有 22 篇论文，被引用数超过 400。

论文目录如下：

责任编辑：PSY

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
30879

浏览量
269038
机器学习

机器学习

+关注

关注
66

文章
8418

浏览量
132623
3D物体识别

3D物体识别

+关注

关注
0

文章
3

浏览量
6318

中兴通讯携手中国移动推出AI裸眼3D创新产品

产品凭借Neovision 3D Anytime突破性的2D转3D威廉希尔官方网站，以及5G与AI的深度融合，为消费者带来更加沉浸、更为丰富的裸眼

发表于 10-15 10:05 •756次阅读

中兴通讯全场景AI终端应用与裸眼3D新品亮相

”的产品战略与理念，终端业务六大AI主题展示吸引了众多关注，内容覆盖全球领先的AI裸眼3D、AI同声传译和方言互译、AI安全反诈、

发表于 10-15 10:00 •875次阅读

紫光展锐助力全球首款AI裸眼3D手机发布

1.4亿台，展示了该威廉希尔官方网站巨大的市场潜力和增长空间。近日，全球首款AI裸眼3D手机——中兴远航3D重磅上市。凭借微米级3D光栅威廉希尔官方网站、Neovision

发表于 07-15 16:00 •684次阅读

机器学习中的数据分割方法

在机器学习中，数据分割是一项至关重要的任务，它直接影响到模型的训练效果、泛化能力以及最终的性能评估。本文将从多个方面详细探讨机器学习中数据

发表于 07-10 16:10 •1783次阅读

Meta推出革命性3D Gen AI模型：1分钟内生成高质量3D内容

在科技日新月异的今天，Meta再次引领创新潮流，宣布了一项令人瞩目的威廉希尔官方网站突破——3D Gen AI模型的诞生。这款先进的模型以其前所未有的高效性与卓越品质，重新定义了3D内容创作的边界

发表于 07-04 18:12 •1018次阅读

中兴通讯与中国移动发布全球首创AI裸眼3D新品，引领3D科技新浪潮

在科技飞速发展的今天，裸眼3D威廉希尔官方网站以其独特的沉浸式体验，正逐渐成为科技领域的新宠。近日，全球领先的通讯科技企业中兴通讯携手中国移动，在备受瞩目的2024MWC上海展上，发布了两款全球首创的AI裸眼

发表于 06-28 15:32 •999次阅读

银牛微电子引领3D空间计算芯片前沿威廉希尔官方网站

在此次活动上，银牛微电子有限责任公司的周凡博士指出，2D视觉已无法满足日益复杂的系统需求，因此我们需要引入更多维度来辅助机器人和智能设备更好地理解并融入真实环境，即从2

发表于 05-18 16:34 •890次阅读

重磅| 奥比中光全新双目系列3D相机，搭载自研芯片，为智能机器人而生

设计的新一代深度引擎芯片MX6800，配备高性能主被动融合双目成像系统，能够在户外、室内、夜晚、白昼等不同光照条件以及复杂多变的动态环境中稳定输出高质量深度数据，精准还原场景和物体的3D信息，广泛适用于AMR、巡检机器人、配送

发表于 04-30 18:00 •468次阅读

重磅| 奥比中光全新双目系列<b class='flag-5'>3D</b>相机，搭载自研芯片，为智能<b class='flag-5'>机器</b>人而生

机器人3D视觉引导系统框架介绍

通过自主开发的3D扫描仪可获准确并且快速地获取场景的点云图像，通过3D识别算法，可实现在对点云图中的多种目标物体进行识别和位姿估计。

发表于 04-29 09:31 •335次阅读

<b class='flag-5'>机器</b>人<b class='flag-5'>3D</b>视觉引导系统框架介绍

三维扫描与3D打印在法医头骨重建中的突破性应用

随着科技的飞速发展，三维扫描和3D打印威廉希尔官方网站已经逐渐渗透到医疗领域的各个环节，为临床诊断、治疗和医学研究带来了前所未有的便利。特别是在法医学领域，三维扫描和3D打印威廉希尔官方网站的应用更是为头骨重建、身份鉴定等

发表于 04-19 10:26 •499次阅读

三维扫描与<b class='flag-5'>3D</b>打印在法医头骨<b class='flag-5'>重建</b>中的<b class='flag-5'>突破</b>性应用

Stability AI推出全新Stable Video 3D模型

近日，Stability AI 推出了全新的 Stable Video 3D 模型，该模型以其独特的功能吸引了众多关注。此模型具备从单张图像中生成多视图3D视频的能力，为视频制作领域带来了革命性的

发表于 03-22 10:30 •852次阅读

AI新工具DUSt3R走红GitHub，两秒完成3D重建惊艳网友

近日，一款名为DUSt3R的AI新工具在微软旗下的GitHub平台上引发了广泛关注。这款神奇的工具仅需两张图片和两秒钟的时间，便能完成精确的3D重建，且无需额外测量任何数据。上线不久，

发表于 03-08 14:02 •1171次阅读

2张图2秒钟完成3D建模！3D内容生成工具DUSt3R爆火，国产厂商有哪些机会？

电子发烧友网报道（文/吴子鹏）近日，一款名为DUSt3R的AI新工具在GitHub上爆火。DUSt3R能够在短短2秒钟内通过仅有2张图片完成3D 重

发表于 03-06 00:10 •4073次阅读

基于深度学习的方法在处理3D点云进行缺陷分类应用

背景部分介绍了3D点云应用领域中公开可访问的数据集的重要性，这些数据集对于分析和比较各种模型至关重要。研究人员专门设计了各种数据集，包括用于3D形状分类、3D物体检测和

发表于 02-22 16:16 •1145次阅读

CEA-Leti发布“突破性”3D循序集成 (3DSI)

世界上首个CMOS over CMOS的3D循序集成(3DSI)，具有先进的金属线层级，这使得具有中间体BEOL的3DSI更接近商业化。这一突破在

发表于 12-28 16:14 •720次阅读

搜索历史

牛津博士论文学习重建和分割3D物体，突破AI和机器理解的界限

评论