一种利用几何信息的自监督单目深度估计框架

作者：lovelypanda

1. 笔者总结

本文方法是一种自监督的单目深度估计框架，名为GasMono，专门设计用于室内场景。本方法通过应用多视图几何的方式解决了室内场景中帧间大旋转和低纹理导致自监督深度估计困难的挑战。GasMono首先利用多视图几何方法获取粗糙的相机姿态，然后通过旋转和平移/尺度优化来进一步优化这些姿态。为了减轻低纹理的影响，该框架将视觉Transformer与迭代式自蒸馏机制相结合。通过在多个数据集上进行实验，展示了GasMono框架在室内自监督单目深度估计方面的最先进性能。

图1. 现有方法和GasMono的比较。我们的框架在薄物体和全局结构上展现出了卓越的精度。

2. 原文摘要

本文针对室内场景中存在的大旋转和低纹理等挑战，提出了一种单目自监督深度估计的框架。我们通过利用多视几何方法从单目序列中估计粗略的相机姿态来缓解大旋转的问题。然而，我们发现由于训练集中不同场景间的尺度不确定性，直接使用几何粗略姿态并不能提升深度估计的性能，这与直觉相悖。为了解决这个问题，我们提出在训练过程中对这些姿态进行旋转和平移/尺度优化。为了应对低纹理的问题，我们将视觉Transformer的全局推理能力与迭代式自蒸馏机制相结合，提供来自网络自身的更准确的深度指导。在NYUv2、ScanNet、7scenes和KITTI数据集上的实验验证了我们框架中每个组件的有效性，我们的方法在室内自监督单目深度估计方面达到了最先进的水平，并展现了优异的泛化能力。

3. GasMono框架

图2. GasMono: 一种基于几何的自监督单目深度估计框架，用于室内场景。注意，在训练过程中没有使用真实标签。通过从多个室内场景中选择的单目图像序列，使用结构从运动（structure-from-motion）软件包COLMAP来估计每个序列上相机的粗略姿态。然后，使用图像序列和粗略姿态来训练深度模型。为了改善粗略的平移，设计了一个AlignNet来估计尺度sNN和残差平移∆t。此外，还设计了一个PoseNet来进一步改善姿态，特别是基于重建和目标图像的粗略旋转。AlignNet和PoseNet只在训练过程中使用。

3.1. 几何辅助姿态估计

自监督单目深度估计框架对于训练视频序列的标准监督协议包括根据估计的深度Dt和相对相机姿态Et→s = Rt→s|tt→s将像素从源图像Is重投影到目标It。这意味着对于目标视图中的像素pt，它在源视图中的坐标ps可以得到

鉴于在图像之间学习准确的相对姿态存在大旋转的挑战，我们提出摆脱通常使用的PoseNet，并用传统姿态估计算法替换它。为此，我们利用COLMAP为训练集中每个单独的室内序列的图像Ii获得相机姿态ECPi = RCPi |tCPi。然后，对于给定的图像对It，Is，分别是目标和源帧，我们可以获得两者之间的相对姿态 Et→s = RCPt→s|tCPt→s = ECPsECPt−1。与两帧姿态估计不同，COLMAP等结构从运动管道可以在整个序列上进行全局推理。我们认为，由于姿态估计是学习单目深度的一个边缘任务，利用整个序列是值得的。

尽管如此，COLMAP估计的姿态，我们将称之为粗略姿态，有一些问题，特别是1)在训练集的不同序列之间存在尺度不一致性和由于单目歧义导致的尺度漂移，2)由于缺乏纹理导致的旋转和平移中的噪声。这使得COLMAP本身无法无缝地替代PoseNet来训练单目深度网络。

3.1.1 平移缩放和精炼

为了解决前一个问题，我们部署一个浅层网络AlignNet来在训练过程中精炼平移并重新缩放它，以克服跨训练集中的不同序列的尺度不一致性。

因此，AlignNet处理目标和源图像，并预测应用于COLMAP估计的平移分量tCPt→s的尺度因子sNN和残差移位ΔtNN。然后，从目标视图到源视图的估计平移tt→s得到为

这向量用于方程1，导致仅在学习估计单目深度图时调整训练图像的尺度，使用RCPt→s|t∗t→s。

我们可以将AlignNet视为一个训练优化工具，在训练过程中精炼粗略姿态以使其整体尺度一致。因此，一旦完成训练，它就失去了效用。

图3. 不同编码器对低纹理深度估计的影响。

3.1.2 旋转优化

前面部分仅关注平移优化，尽管粗略姿态估计的旋转也可能不准确和嘈杂，所以也提出了旋转优化。为了进一步展示训练中旋转优化的效果，在图3中，我们分别报告了不准确粗略旋转(顶部样本)和准确粗略旋转(底部样本)的样本。对于两者，我们基于“Optim t”和“Optim R”计算重构损失，并在第3列中给出。对于第一个样本，由于不准确的粗略旋转，仅优化平移(“Optim t”，第1行)无法补偿错误旋转，从而产生高的重投影误差。在精炼旋转之后，基于“Optim R”的重构(第2行)产生了更低的光度误差。相反，在第二个样本中显示准确的粗略姿态，基于“Optim t”的重构已经可以达到合理的重构图像。

3.2 低纹理区域

在自监督训练中，反向传播行为回复到RGB图像的光度渐变变化。那些具有有效光度变化的区域为深度学习提供强大的渐变，而低纹理区域，如墙壁和地板，无法提供有效的监督信号，因为对深度的多个假设导致光度误差接近零，从而使网络陷入局部最小值。因此，对于低纹理区域，深度估计过程主要依赖于网络自身的推理能力。使用某些额外约束可能有助于缓解这个问题，这些约束来自诸如光流或平面法线之类的提示。尽管如此，这需要额外的监督，并且由于低纹理而在光流的情况下也可能遭受同样的问题。因此，我们选择在架构方面解决它，特别是通过Transformer超越CNN的有限感受野。此外，以前的工作证明了标签蒸馏的有效性，以提高深度网络的准确性。

3.2.1 网络架构

我们的框架由三个网络组成，一个用于单目深度估计的Depth Network，一个用于尺度校正和残差平移预测的Alignment Network(AlignNet)，以及一个用于残差姿态估计的PoseNet。整体训练架构如图2所示。

考虑到Transformer在特征之间建模长程关系的出色性能，为了增强低纹理区域的全局特征提取，我们引入了一个Transformer编码器MPViT作为深度编码器。编码器中的自注意力机制以一种高效的因素化方式实现：

其中C指的是嵌入维度。查询(Q)、键(K)和值(V∈R^{N×C})向量是从视觉标记投影的。此外，对于深度解码器，我们用Convex upsampling 替换了Monodepth2等使用的标准上采样，将4个缩放度图像映射带到全分辨率，在此它们用于下面描述的迭代自我蒸馏操作。

算法1 迭代式自蒸馏系统ISD

3.2.2 迭代自我蒸馏

我们提出一个过拟合驱动的迭代自我蒸馏(ISD)过程，以获得最小像素重投影误差的深度图，为任何特定训练样本提供更准确的标签。ISD的关键步骤在算法1中列出。对于每张训练图像，我们多次迭代此过程(行4)。在第一次迭代中，我们在所有尺度上选择每个像素的最小重建误差及其对应的预测深度(第6-14行)。然后，我们通过最小化当前最佳深度图与每个尺度上的预测之间的深度损失来更新网络(第15-16行)。重复此过程多次迭代。

3.3 训练损失

训练损失的关键项由最小视图重建损失组成。

视图重建损失。对于重构图像I~的误差相对于目标图像I，我们采用结构相似性指数度量(SSIM)和L1差异的组合进行衡量：

其中α通常设置为0.85 。此外，为了减轻两视图之间的遮挡效应，相对于前向和后向相邻帧进行变形的损失的最小值被计算：

其中‘1’和‘-1’分别指前向和后向相邻帧。

光滑损失。边缘感知平滑损失用于进一步改进反深度映射d：

其中表示平均归一化的反深度。并计算一个自动掩码μ来过滤静止帧和一些重复的纹理区域。

迭代自我蒸馏损失。如前所述，GasMono自我蒸馏伪标签以提供额外的监督。给定根据算法1获得的伪标签，我们最小化预测深度d相对于它的对数误差：

总损失。最后，在任何给定尺度上计算视图重建损失、光滑损失和蒸馏项(均带到全分辨率)，以获得总损失项。更具体地说，计算两个重建损失，即和：

其中和分别基于平移和旋转优化后得到的姿态进行图像重建计算，β、λ和μ分别设置为0.2、0.001和0.1。最后，在所有尺度上平均总损失。

4. 实验结果

本文的实验结果主要通过在多个数据集上分析和比较GasMono框架的性能来进行评估。在实验部分，作者使用了三个室内数据集（NYUv2、7scenes和ScanNet）和一个室外数据集（KITTI）。作者对GasMono的行为进行了详细的研究，分析了使用COLMAP位置和姿态优化策略训练的GasMono的效果。此外，作者还对模型的各个组件进行了消融实验，评估了它们对解决室内单目深度估计挑战的贡献。最后，作者还与现有的先进方法进行了比较，证明了GasMono在室内自监督单目深度估计中的优势。

表1. 消融研究。

表2. 在室外KITTI数据集上测试了我们的ISD和不同基线方法。

表3. 在NYUv2上的评估结果。

表4. 在ScanNet上的零测量泛化结果。

表5. 在RGB-D 7场景上的零测量泛化结果。注意，Monoindoor++从每个视频序列中提取每30帧的第一张图像作为测试集，而我们遵循SC-Depthv2，从每10帧中提取第一张图像。

表6. 在RGB-D 7场景上微调后的结果。

可视化结果如下：

图4. 深度评估中的低纹理区域。

图5. 在NYUv2上的定性比较。我们的GasMono相比于基线方法Monodepth2和最近的工作SC-Depthv2，获得了更细致和更准确的深度估计。

图6. 在ScanNet和7scenes上的泛化比较。与TrainFlow、Monodepth2和SC-Depthv2相比，GasMono在新场景上显示出更准确和更细致的深度估计。

5. 结论

本文提出了GasMono，一种利用几何信息的自监督单目深度估计框架，适用于复杂的室内场景。我们的方法通过缩放和精炼两个步骤，解决了自监督训练中由于姿态估计不准确而导致的尺度不一致和深度不精确的问题，并有效地利用了几何方法提供的粗略姿态。实验结果表明，我们的方法在NYUv2和KITTI数据集上显著并稳定地超越了所有现有方法。此外，我们的方法在ScanNet和7Scenes数据集上也表现出了优异的泛化能力。

编辑：黄飞

阅读全文

RGB(57283) RGB(57283)
深度学习(119798) 深度学习(119798)
cnn(21235) cnn(21235)
Transformer(5892) Transformer(5892)

一种自激式开光稳压电源的设计

2018-01-25 16:55:30

一种专门用于检测小目标的框架Dilated Module

1. 介绍本文提出一种专门用于检测小目标的框架，框架结构如下图：我们探索了可以提高小目标检测能力的3个方面：Dilated模块，特征融合以及passthrough模块。Dilated Module

2022-11-04 11:14:00

一种修正的近场声源定位时延估计方法

和易于实现的特点使得此方法在实际的被动声定位系统中得到了广泛应用。但是此方法只能在高信噪比和适度混响条件下有较好的性能。针对此问题,给出了一种修正的PHAT-GCC方法,并在不同信噪比和混响环境下

2010-04-22 11:55:28

一种基于AliOS Things的uData感知设备软件框架

中分别有三张数据表，应用服务表、抽象数据表，物理传感器表。uData数据类型uData主要分两种类型的数据，一种是uData的应用算法数据类型，开发者和外部模块也只和这类型的数据进行通信和交互；另外一种

2018-01-22 17:16:29

一种基于图像平移的目标检测框架

1、摘要近年来，在深度卷积神经网络(CNNs)的帮助下，图像和视频监控在智能交通系统(ITS)中取得了长足的进展。作为一种先进的感知方法，智能交通系统对视频监控中每一帧感兴趣的目标进行检测是其广泛

2021-08-31 07:43:19

一种基于模型的效率估计算法

。通常异步电机的故障是由于长时间运行损耗增加、效率降低，所以电机检测比较重要的一项是检测效率。一般情况会有专用测试仪器来检测电机效率，但是都需要拆下电机，安装到专用仪器上进行测试。本文提出了一种基于模型的效率估计算法，用于在正常工况不停机的情况下检测电机效率。

2021-09-01 08:09:47

一种基于混沌和小波变换的大容量音频信息隐藏算法

`音频信息隐藏的主要原理是利用人耳听觉系统的某些特性，将秘密信息隐藏到普通的音频数据流中以达到隐蔽通信的目的．提出了一种基于混沌和小波变换的大容量音频隐藏算法．该算法首先利用混沌序列良好的伪随机特性

2011-03-06 18:32:51

一种基于综合几何特征和概率神经网络的HGU轴轨识别方法

摘要故障诊断是保证水轮发电机组安全运行的重要环节。轴心轨迹辨识是HGU故障诊断的一种有效方法。提出了一种基于综合几何特征和概率神经网络（CGC-PNN）的HGU轴轨识别方法。该方法从结构、区域和边界

2021-09-15 08:18:35

一种多探头双频超声波接收电路创新设计

接收。根据对反射数据的分析，最终得到该水域的信息。随着探鱼器的发展，为了探测更多更详细的水域信息，大角度多频率探测为了发展的趋势。所以增加超声波探测角度一般有两种方式，单探头的机械回扫探测和多个探头探测

2019-06-24 07:27:59

一种对通信信息诈骗行为进行识别和对深度受害人进行防控双重防护的方法

来对分类器进行调优。　　步骤5：对于新的用户数据，首先计算其特征值，然后按照步骤2和3，返回易感人群分级类别。　　4 结束语　　本文设计了一种对通信信息诈骗行为进行识别和对深度受害人进行防控双重防护

2020-12-03 14:14:34

一种改进的矩不变自动阈值算法

引入的参数点估计算法，其基本思想是：样本抽自总体，样本的矩在一定程度上反映了总体的矩。因此可以用样本矩函数的估计作为相应的总体矩函数的估计量。矩法是一种效率较高的正态性检验方法。具体作法是：样本矩作为

2018-08-24 16:22:26

一种用于电缆线缆测量的单路测径仪

：橡皮滚子，薄壁圆管，薄板厚度，磁带宽度，高温线材，加工镜面的圆筒，软管等。　　单路测径仪是利用光电CCD威廉希尔官方网站生产的一种非接触式测量威廉希尔官方网站，它不仅丢弃了传统的利用通用量具进行静态接触式测量的方法，实现了

2019-04-09 16:03:21

一种较通用的界面切换框架分享，绝对实用

2021-12-27 06:02:28

利用卷积调制构建一种新的ConvNet架构Conv2Former

1、利用卷积探索一种更高效的编码空域特征的方式　　本文旨在通过充分利用卷积探索一种更高效的编码空域特征的方式：通过组合ConvNet与ViT的设计理念，本文利用卷积调制操作对自注意力进行了简化，进而

2022-12-19 17:37:34

单目摄像头和FPGA的ADAS产品原型系统

地平线在软件算法上提供了基于深度学习的整体方案，具有高性能、低运算量的特点。在今年智车优行“奇点汽车”发布会上，地平线首次向外界展示了真车环境下，利用单目摄像头同时实现行人/车辆/车道线检测的ADAS产品

2017-01-06 18:09:34

单路D型触发器有何功能呢？有哪些引脚

单路D型触发器有何功能呢？有哪些引脚？如何利用单路D型触发器去设计一种自锁开关？

2022-02-28 08:06:24

深度学习框架只为GPU?

CPU优化深度学习框架和函数库机器学***器

2021-02-22 06:01:02

Firefly RK3399Pro开源主板 + 单目摄像头，人体特征点检测方案

，可以更智能地应用于计算机视觉的相关领域中。方案搭建Firefly RK3399Pro开源主板 + 单目摄像头方案特点高性能AI处理器采用RK3399Pro高性能AI主板，ARM六核处理器架构，主频

2022-04-01 15:55:16

Nanopi深度学习之路(1)深度学习框架分析

学习，也就是现在最流行的深度学习领域，关注论坛的朋友应该看到了，开发板试用活动中有【NanoPi K1 Plus试用】的申请，介绍中NanopiK1plus的高大上优点之一就是“可运行深度学习算法的智能

2018-06-04 22:32:12

【NanoPi K1 Plus试用体验】搭建深度学习框架

Keras。 Keras是一种高度模块化，使用简单上手快，合适深度学习初学者使用的深度学习框架。Keras由纯Python编写而成并以Tensorflow、Theano以及CNTK为后端。Keras为支持

2018-07-17 11:40:31

主流深度学习框架比较

DL：主流深度学习框架多个方向PK比较

2018-12-26 11:10:18

介绍一种单WiFi功能双频WiFi模块

本文给大家介绍一种单WiFi功能双频WiFi模块。

2021-05-18 07:17:30

介绍一种基于H.264标准的快速运动估计算法

本文介绍了一种基于H.264标准的快速运动估计算法。

2021-06-03 06:27:37

介绍一种嵌入式框架模板的构建方案

2022-02-22 06:25:45

分享一种基于闪存的蓝牙低功耗无线电系统单芯片

本文将与大家分享一种基于闪存的蓝牙低功耗无线电系统单芯片。

2021-06-16 06:50:26

分析种基于FPGA实现的FFT插值正弦波频率估计新算法

本文结合FPGA的并行处理优势，提出了一种利用信号FFT插值系数的幅度和相位信息来构造频率修正项的新算法。

2021-04-29 06:02:26

在RK3399开发板上如何去实现一种人工智能深度学习框架呢

在RK3399开发板上如何去实现一种人工智能深度学习框架呢？

2022-03-07 07:00:05

基于FPGA实现视频图像的一种运动估计设计

主要是针对帧间预测，去除视频帧在空间域和时间域的冗余度。块匹配方法是目前编码效率较高，普遍采用的一种编码方法。首先，其要将当前帧进行划分。长期实践表明，将当前帧划分为多个16x16的块是比较合理的。其次

2015-02-09 15:00:13

基于空子载波的信噪比估计算法

通信系统会插入一些空子载波进行频谱成型.这些载波不携带任何有用信息,能量为0.在经过信道后,空子载波的能量均值即为噪声方差.本文正是基于上述分析,设计了一种低复杂度的SNR估计算法 [hide]全文下载[/hide]

2010-04-23 11:51:46

如何利用一种热点去控制LED呢

如何利用一种热点去控制LED呢？

2022-02-22 06:44:32

如何利用Keil软件去新建一种工程呢

如何利用Keil软件去新建一种工程呢？其步骤有哪些？

2022-01-24 07:17:05

如何利用STM32去实现一种两轮自平衡车呢

如何利用STM32去实现一种两轮自平衡车呢？

2021-12-20 07:44:28

如何利用keil去创建一种工程呢

如何利用keil去创建一种工程呢？有哪些基本步骤呢？

2022-01-24 06:58:36

如何利用单片机去设计一种温度报警仿真系统

迄今为止，温度还是人们日常生活谈论的一个热门话题。如何掌控温度为人们生产生活所用，如何利用温度创造人们生产生活所需，倒是一件令人深度思考的事。在化工冶金制造领域，温度是影响产品成功合成的决定性因素

2021-12-08 07:18:55

如何利用单片机设计一种模拟电磁曲射炮？

2021-11-11 07:17:58

如何利用电流检测放大器去设计一种TWS无线耳塞？

如何利用电流检测放大器去设计一种TWS无线耳塞？如何利用霍尔效应传感器去设计一种TWS无线耳塞？

2021-06-29 06:52:15

如何去实现一种ThreadX内核框架的设计呢

ThreadX内核模板框架是怎样去设计的？如何去实现一种ThreadX内核框架的设计呢？

2021-11-29 07:08:01

如何去实现一种基于STM32f103的简单自平衡小车设计呢

如何去实现一种基于STM32f103的简单自平衡小车设计呢？有哪些实现步骤？

2021-12-14 07:02:10

如何去实现一种基于ST的单电阻FOC有感hall算法

磁场定向控制是什么？如何去实现一种基于ST的单电阻FOC有感hall算法？

2021-09-22 06:36:58

如何去实现一种基于单片机智能烤箱温控系统设计

然后做出相应处理的温度控制系统。此系统以模块化的方式制作，让人一目了然各个模块的所具有的功能，但不论是哪一种模

2021-12-08 06:31:09

如何去实现一种基于单片机温度自动控制系统设计

合成的决定性因素；在蔬菜和水果的种植及水产品的养殖方面，温度也是其中一个重要的因素。本设计从人们日趋关注的温室的温度控制方面的问题出发，设计出一种能检测外界环境温度值然后做出相应处理的温度控制系统。此系统以模块化的方式制作，让人一目了然各个模块的所具有的功能，但不论是哪一种模

2021-12-08 06:24:37

如何去实现一种基于单片机电烤箱系统仿真设计

模块化的方式制作，让人一目了然各个模块的所具有的功能，但不论是哪一种模块都要受主模块——AT89C51单片机的控制。本

2021-12-08 06:08:17

如何去实现一种车载信息娱乐设备？

怎样通过BC5和MCF5251去设计一种车载信息娱乐设备？

2021-05-19 06:57:10

怎样去建立一种IIC数据采集USART串口通信框架呢

I2C串行总线的硬件结构是怎样构成的？怎样去建立一种IIC数据采集USART串口通信框架呢？

2021-12-10 07:19:41

怎样去开发一种基于ESP-IDF_V4.2框架库的ESP32例程呢

怎样去开发一种基于ESP-IDF_V4.2框架库的ESP32例程呢？

2021-11-05 08:22:02

怎样去设计一种基于AVR单片机的两轮自平衡智能车

怎样去设计一种基于AVR单片机的两轮自平衡智能车？如何对其进行测速？

2021-09-24 07:12:25

怎样去设计一种基于Flex框架的卷接机组监控系统

基于Flex框架的卷接机组监控系统是怎样构成的？怎样去设计一种基于Flex框架的卷接机组监控系统？

2021-09-24 07:36:29

怎样去设计一种基于stm32的两轮自平衡小车呢

基于stm32的两轮自平衡小车是由哪些模块组成的？怎样去设计一种基于stm32的两轮自平衡小车呢？

2022-03-01 06:31:44

最受欢迎的三种深度传感器

。这种威廉希尔官方网站跟3D激光传感器原理基本类似，只不过3D激光传感器是逐点扫描，而TOF相机则是同时得到整幅图像的深度信息。　　TOF威廉希尔官方网站采用主动光探测方式，与一般光照需求不一样的是，TOF照射单元的目的不是

2020-08-25 11:05:19

求一种1/8扫描单双色屏幕参考设计方案

2021-06-02 06:42:44

求一种单芯片低功耗蓝牙BLE解决方案

2021-05-21 07:01:17

求一种基于单片机的炉温自动控制系统设计方案

相应处理的温度控制系统。此系统以模块化的方式制作，让人一目了然各个模块的所具有的功能，但不论是哪一种模块都要受

2021-12-08 06:13:48

求大佬分享一种基于JPEG2000的新型率控制方法

通过对JPEG2000的分析，本文提出了一种通过估计率失真信息来控制码率的方法。

2021-06-04 06:45:38

英特尔实感SDK如何获得深度和颜色框架

想知道如何获得深度和颜色框架，以便我可以在以后以另一种方式使用它们“。Immagine.png 98.8 K.以上来自于谷歌翻译以下为原文"Hi, long ago I installed my

2018-10-18 14:13:50

#硬声创作季 ECCV 2022最新 DynamicDepth：无监督多帧单目深度估计新SOTA！

OTAAMIECC自动驾驶

Mr_haohao发布于 2022-10-12 15:31:53

基于深度学习的多尺幅深度网络监督模型

针对场景标注中如何产生良好的内部视觉信息表达和有效利用上下文语义信息两个至关重要的问题，提出一种基于深度学习的多尺度深度网络监督模型。与传统多尺度方法不同，模型主要由两个深度卷积网络组成：首先网络

2017-11-28 14:22:10

一种深度信息的图像修复算法

针对图像修复结果中存在物体结构上的不连续性和不完整性的问题，提出一种基于深度信息的图像修复算法。首先，通过建立平面参数马尔可夫模型来推测图像中像素点所在场景空间中的深度信息，从而划分出图像中的共面

2018-01-03 14:49:05

基于半监督学习框架的识别算法

问题，对半监督学习中的协同训练算法进行改进，提出了一种基于多学习器协同训练模型的人体行为识别方法．这是一种基于半监督学习框架的识别算法，该方法首先通过基于Q统计量的学习器差异性度量选择算法来挑取出协同训练中基学习

2018-01-21 10:41:09

基于单目图像的深度估计算法，大幅度提升基于单目图像深度估计的精度

双目匹配需要把左图像素和右图中其对应像素进行匹配，再由匹配的像素差算出左图像素对应的深度，而之前的单目深度估计方法均不能显式引入类似的几何约束。由于深度学习模型的引入，双目匹配算法的性能近年来得到了极大的提升。

2018-06-04 15:46:49

34042

UC Berkeley大学的研究人员们利用深度姿态估计和深度学习威廉希尔官方网站

给定一段视频，我们用基于视觉的动作估计器预测每一帧演员的动作qt。该动作预测器是建立在人类网格复原这一工作之上的（akanazawa.github.io/hmr/），它用弱监督对抗的方法训练动作估计

2018-10-12 09:06:29

2561

一个基于PyTorch的几何深度学习扩展库，为GNN的研究和应用再添利器

作者在论文中写道：“这是一个 PyTorch 的几何深度学习扩展库，它利用专用的 CUDA 内核实现了高性能。它遵循一个简单的消息传递 API，将最近提出的大多数卷积和池化层捆绑到一个统一的框架

2019-03-11 08:49:39

5985

一种自监督同变注意力机制，利用自监督方法来弥补监督信号差异

本文提出了一种自监督同变注意力机制（self-supervised equivariant attention mechanism，简称SEAM），利用自监督方法来弥补监督信号差异。在强监督语义分割的数据增广阶段，像素层级标注和输入图像需经过相同的仿射变换

2020-05-12 10:16:13

7337

基于多孔卷积神经网络的图像深度估计模型

针对在传统机器学习方法下单幅图像深度估计效果差、深度值获取不准确的问题，提出了一种基于多孔卷积神经网络（ACNN）的深度估计模型。首先，利用卷积神经网络（CNN）逐层提取原始图像的特征图；其次，利用

2020-09-29 16:20:00

一种无监督下利用多模态文档结构信息帮助图片-句子匹配的采样方法

Approach for Image-Sentence Matching UsingDocument-Level Structural Information，提出了一种无监督设定下，更有效地利用多模态文档

2020-12-26 10:26:13

1868

基于深度学习的二维人体姿态估计方法

基于深度学习的二维人体姿态估计方法通过构建特定的神经网络架构，将提取的特征信息根据相应的特征融合方法进行信息关联处理，最终获得人体姿态估计结果，因其具有广泛的应用价值而受到研究人员的关注。从数据

2021-03-22 15:51:15

一种基于光滑表示的半监督分类算法

近年来，基于图的半监督分类是机器学习与数据挖掘领域的研究热点之一。该类方法一般通过构造图来挖掘数据中隐含的信息，并利用图的结构信息来对无标签样本进行分类。因此，半监督分类的效果严重依赖于图的质量

2021-04-08 10:47:28

采用自监督CNN进行单图像深度估计的方法

为了提高利用深度神经网络预测单图像深度信息的精确度，提出了一种采用自监督卷积神经网络进行单图像深度估计的方法。首先，该方法通过在编解码结构中引入残差结构、密集连接结构和跳跃连接等方式改进了单图像深度

2021-04-27 16:06:35

一种有效的无监督深度表示器(Mix2Vec)

本文由深兰科学院撰写，文章将为大家细致讲解一种有效的无监督深度表示器（Mix2Vec），该方法可将异构数据映射到统一的低维向量空间，避免混合异构数据相似度度量偏差问题。同时，该方法基于深度异构

2022-03-24 17:22:11

1270

用于弱监督大规模点云语义分割的混合对比正则化框架

为了解决大规模点云语义分割中的巨大标记成本，我们提出了一种新的弱监督环境下的混合对比正则化（HybridCR）框架，该框架与全监督的框架相比具有竞争性。

2022-09-05 14:38:00

999

一种基于去遮挡和移除的3D交互手姿态估计框架

与被充分研究的单手姿态估计任务不同，交互手3D姿态估计是近两年来刚兴起的学术方向。现存的工作会直接同时预测交互手的左右两手的姿态，而我们则另辟蹊径，将交互手姿态估计任务，解耦成左右两手分别的单手姿态估计任务。这样，我们就可以充分利用当下单手姿态估计威廉希尔官方网站的最新进展。

2022-09-14 16:30:23

676

基于几何单目3D目标检测的密集几何约束深度估计器

基于几何的单目3D目标检测通过2D-3D投影约束估计目标的位置。具体来说，网络预测目标的尺寸()，旋转角。假设一个目标有n个语义关键点，论文回归第i个关键点在图像坐标中的2D坐标和object

2022-10-09 15:51:32

690

一种用于自监督单目深度估计的轻量级CNN和Transformer架构

自监督单目深度估计不需要地面实况训练，近年来受到广泛关注。设计轻量级但有效的模型非常有意义，这样它们就可以部署在边缘设备上。

2023-03-14 17:54:16

1500

介绍第一个结合相对和绝对深度的多模态单目深度估计网络

单目深度估计分为两个派系，metric depth estimation(度量深度估计，也称绝对深度估计)和relative depth estimation(相对深度估计)。

2023-03-21 18:01:25

1754

介绍一种新的全景视觉里程计框架PVO

论文提出了PVO，这是一种新的全景视觉里程计框架，用于实现场景运动、几何和全景分割信息的更全面建模。

2023-05-09 16:51:58

1288

AI威廉希尔官方网站：一种联合迭代匹配和姿态估计框架

由于噪声和退化，并非所有正确匹配都能给出良好的姿态。之前的操作仅保证具有判别性高的描述子的特征点有更高的匹配分数，并且首先被识别以参与姿态估计，但忽略了鲁棒姿态估计所需的几何要求。

2023-07-18 12:58:56

313

深度学习框架是什么？深度学习框架有哪些？

深度学习框架是什么？深度学习框架有哪些？深度学习框架是一种软件工具，它可以帮助开发者轻松快速地构建和训练深度神经网络模型。与手动编写代码相比，深度学习框架可以大大减少开发和调试的时间和精力，并提

2023-08-17 16:03:09

1589

深度学习框架的作用是什么

深度学习框架的作用是什么深度学习是一种计算机威廉希尔官方网站，它利用人工神经网络来模拟人类的学习过程。由于其高度的精确性和精度，深度学习已成为现代计算机科学领域的重要工具。然而，要在深度学习中实现高度复杂

2023-08-17 16:10:57

1072

深度学习框架连接威廉希尔官方网站

深度学习框架连接威廉希尔官方网站深度学习框架是一个能够帮助机器学习和人工智能开发人员轻松进行模型训练、优化及评估的软件库。深度学习框架连接威廉希尔官方网站则是需要使用深度学习模型的应用程序必不可少的威廉希尔官方网站，通过连接威廉希尔官方网站

2023-08-17 16:11:16

443

深度学习框架和深度学习算法教程

深度学习框架和深度学习算法教程深度学习是机器学习领域中的一个重要分支，多年来深度学习一直在各个领域的应用中发挥着极其重要的作用，成为了人工智能威廉希尔官方网站的重要组成部分。许多深度学习算法和框架提供

2023-08-17 16:11:26

638

LOG-LIO: 一种高效局部几何信息估计的激光雷达惯性里程计方法

LOG-LIO的流程接收来自3D激光雷达和惯性测量单元（IMU）的输入，如图2所示。对于新的输入扫描，我们首先使用Ring FALS来估计原始点的法线，在使用IMU测量校正畸变后，根据它们的局部几何信息，在未畸变的点云和地图之间执行关联。

2023-08-18 15:45:30

466

动态场景下的自监督单目深度估计方案

自监督单目深度估计的训练可以在大量无标签视频序列来进行，训练集获取很方便。但问题是，实际采集的视频序列往往会有很多动态物体，而自监督训练本身就是基于静态环境假设，动态环境下会失效。

2023-11-28 09:21:34

173

单目深度估计开源方案分享

可以看一下单目深度估计效果，这个深度图的分辨率是真的高，物体边界分割的非常干净！这里也推荐工坊推出的新课程《单目深度估计方法：算法梳理与代码实现》。

2023-12-17 10:01:16

404

已全部加载完成

搜索历史

一种利用几何信息的自监督单目深度估计框架

评论