0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

形状感知零样本语义分割

3D视觉工坊 来源:计算机视觉工坊 2023-04-28 11:26 次阅读

一、简介

由于大规模视觉语言预训练取得了令人瞩目的进展,最近的识别模型可以以惊人的高准确度对任意对象进行零样本和开放式分类。然而,将这种成功转化为语义分割并不容易,因为这种密集的预测任务不仅需要准确的语义理解,还需要良好的形状描绘,而现有的视觉语言模型是通过图像级别的语言描述进行训练的。为了弥合这一差距,我们在本研究中追求具有形状感知能力的零样本语义分割。受图像分割文献中经典的谱方法的启发,我们提出利用自监督像素级特征构建的拉普拉斯矩阵的特征向量来提升形状感知分割性能。

尽管这种简单而有效的算法完全不使用已知类别的掩模,但我们证明它的表现优于一种最先进的形状感知范式,在训练期间对齐地面实况和预测边缘。我们还深入研究了在不同数据集上使用不同的骨干网络所实现的性能提升,并得出了一些有趣且有结论性的观察:形状感知分割性能的提升与目标掩模的形状紧密性和对应语言嵌入的分布都密切相关。

二、网络架构

08fb6300-e573-11ed-ab56-dac502259ad0.png

图1 SAZS的总体框架

零样本语义分割的目标是将语义分割任务扩展到训练数据集中未出现的类别。引入额外的先验信息的一种潜在方法是利用预训练的视觉-语言模型,但是大多数这些模型都集中于图像级别的预测,无法转移到密集预测任务。为此,我们提出了一种名为“形状感知零样本语义分割(SAZS)”的新方法。

该方法利用了预训练的CLIP[1]模型中包含的丰富的语言先验信息,在训练期间对齐地面实况和预测边缘。同时,利用自监督像素级特征构建的拉普拉斯矩阵的特征向量来提升形状感知分割性能,并将其与像素级别的预测相结合。 我们的方法的模型框架如图1所示。

输入图像首先通过图像编码器转换为像素级嵌入,然后与预训练的CLIP[1]模型的文本编码器获得的预先计算的文本嵌入对齐(图1中的A部分)。同时,图像编码器中的额外头部用于在补丁中预测边界,并针对分割地面真值中获得的地面真值边缘进行优化(图1中的B部分)。此外,在推断过程中,我们通过谱分析分解图像并将输出的特征向量与类别不可知的分割结果相结合(图1中的C部分)。

我们将训练集表示为09044916-e573-11ed-ab56-dac502259ad0.png,测试集表示为0914c430-e573-11ed-ab56-dac502259ad0.png091a3ae6-e573-11ed-ab56-dac502259ad0.png,其中0923ce80-e573-11ed-ab56-dac502259ad0.png092bc22a-e573-11ed-ab56-dac502259ad0.png分别表示输入图像和相应的真实语义掩码。S表示 I中的K个潜在标签,而表示测试期间未见过的类别。

在我们的设置中,这两个集合严格互斥(即093474a6-e573-11ed-ab56-dac502259ad0.png)。 在针对的093e6f42-e573-11ed-ab56-dac502259ad0.png进行推断之前,模型使用来自S的真实标签在0946354c-e573-11ed-ab56-dac502259ad0.png上进行训练。 这意味着在训练过程中从未看到测试集中的类别,使得任务在零样本设置下进行。一旦模型训练得当,它应该能够泛化到未见过的类别,并在开放世界中实现高效的目标密集预测。

像素级别的视觉-语言对齐

我们采用扩张残差网络(DRN[2])和密集预测Transformer(DPT[3])来将图像编码为像素级嵌入向量。同时,我们采用预训练的CLIP文本编码器将来自S中K个类别的名称映射到CLIP特征空间作为文本特征094fbcb6-e573-11ed-ab56-dac502259ad0.png。其中,视觉特征09577e38-e573-11ed-ab56-dac502259ad0.png和文本特征具有相同的维度D。

为了实现视觉-语言对齐,此前的工作[5]通过最小化像素和对应语义类别之间的距离,同时最大化像素和其他类别之间的距离来实现。在像素级视觉和语言特征被嵌入同一特征空间的假设下,我们利用余弦相似度095f4d02-e573-11ed-ab56-dac502259ad0.png作为特征之间的量化距离度量,并提出对齐损失,它是所有像素上已见类别的交叉熵损失的总和:

0965630e-e573-11ed-ab56-dac502259ad0.png 其中,09743aa0-e573-11ed-ab56-dac502259ad0.png表示在位置0980996c-e573-11ed-ab56-dac502259ad0.png上的像素视觉特征,098719d6-e573-11ed-ab56-dac502259ad0.png表示第k个文本特征,098febe2-e573-11ed-ab56-dac502259ad0.png表示像素 0980996c-e573-11ed-ab56-dac502259ad0.png的类别的索引。

形状约束

由于CLIP是在图像级别任务上训练的,仅仅利用CLIP特征空间中的先验信息可能对密集预测任务不足够。为了解决这个问题,我们引入边界检测作为一个约束任务。受到之前工作[6]的启发,我们通过优化真实边缘和特征图中的边缘之间的仿射变换,使其趋近于单位矩阵。

具体来说,如图1所示,我们提取视觉编码器的中间特征,并将其划分成块。首先采用Sobel算子获得边缘对应的真实标签。之后将特征块输入边界头进行特征提取。我们利用训练好的形状网络(图 1中的MLP)计算第i个特征块的变换矩阵09a236c6-e573-11ed-ab56-dac502259ad0.png,该矩阵用于将处理后的特征块与边缘的真实注释之间进行仿射变换。我们使用形状损失来优化仿射变换矩阵与单位矩阵之间的差异: 09aac700-e573-11ed-ab56-dac502259ad0.png 其中T表示特征块数量,表示Frobenius范数。

此外,我们还计算了整张特征图的预测边缘掩码与相应的真实标注之间的二元交叉熵损失 09b58dfc-e573-11ed-ab56-dac502259ad0.png,以进一步优化边缘检测的性能。经过边缘检测任务的联合训练,视觉编码器能够利用输入图像中的形状先验信息。后面的实验结果表明,由09bbbd08-e573-11ed-ab56-dac502259ad0.png09b58dfc-e573-11ed-ab56-dac502259ad0.png引入的形状感知带来了显著的性能提升。

最终,在训练过程中需要优化的总损失为: 09c5f0de-e573-11ed-ab56-dac502259ad0.png 其中,和是损失权重。

自监督谱分解

由于此前谱分解工作[7]的启发,我们利用无监督谱分解的方式将输入图像的拉普拉斯矩阵分解为具有边界信息的特征段,并在图1中的融合模块中将这些特征段与神经网络的预测结果融合。 关联矩阵的推导是谱分解的关键。首先提取预训练的自监督Transformer(DINO[4])最后一层的注意力块中的特征。像素,的关联矩阵定义为: 09d6d4bc-e573-11ed-ab56-dac502259ad0.png 虽然从DINO特征中的关联矩阵富含语义信息,但缺少包括颜色相似性和空间距离在内的低层次近邻信息。

我们首先将输入图像转换为HSV颜色空间:09df8076-e573-11ed-ab56-dac502259ad0.png09e804c6-e573-11ed-ab56-dac502259ad0.png,其中09f70016-e573-11ed-ab56-dac502259ad0.png是各自的HSV坐标,0a007b32-e573-11ed-ab56-dac502259ad0.png是像素i的空间坐标。然后,像素关联矩阵被定义为: 0a085f1e-e573-11ed-ab56-dac502259ad0.png 这里的0a195a1c-e573-11ed-ab56-dac502259ad0.png表示二范数。整体的关联矩阵定义为这两者的加权和: 0a22c89a-e573-11ed-ab56-dac502259ad0.png

推理过程

在进行推理时,我们首先使用预训练的CLIP文本编码器对类别的进行编码,并获得包含C个类别的文本特征0a2bf4f6-e573-11ed-ab56-dac502259ad0.png,其中每个类别都用一个D维嵌入表示。然后我们利用训练好的视觉编码器获取视觉特征图0a365d42-e573-11ed-ab56-dac502259ad0.png。最终的逻辑回归值0a419748-e573-11ed-ab56-dac502259ad0.png是视觉特征和文本特征之间余弦相似性的计算结果。同时,我们使用预训练的DINO以无监督的方式提取语义特征,并计算出前K个谱特征区段0a49d764-e573-11ed-ab56-dac502259ad0.png(我们的实现中0a53f514-e573-11ed-ab56-dac502259ad0.png)。 最终的预测结果是由融合模块生成的,该模块根据0a49d764-e573-11ed-ab56-dac502259ad0.png0a66df80-e573-11ed-ab56-dac502259ad0.png之间的最大IoU(表示为0a6ff2d2-e573-11ed-ab56-dac502259ad0.png)从预测集中进行选择: 0a76a230-e573-11ed-ab56-dac502259ad0.png

三、实验结果

我们分别在语义分割数据集PASCAL-5i[8]和COCO-20i[9]上进行了定量和定性实验,分别如下图所示

0a7f4bc4-e573-11ed-ab56-dac502259ad0.png

表1:SAZS在PASCAL-5i和COCO-20i上的定量结果

0a8a5c3a-e573-11ed-ab56-dac502259ad0.png

表2:SAZS跨数据零样本分割的定量结果(在PASCAL-5i上测试)

SAZS在PASCAL-5i和COCO-20i上的定性结果分别如下图所示。第一列和最后一列是不同类别的输入图像和相应的地面真实语义掩码。第二列和第三列分别是 SAZS 没有和有形状感知的预测结果。*表示在训练阶段未曾出现的类别.

0a969edc-e573-11ed-ab56-dac502259ad0.png0aa48fb0-e573-11ed-ab56-dac502259ad0.png

形状感知分割验证指标IoU与目标掩模的形状紧密性和对应语言嵌入的分布关系如下图所示。

0ab03f86-e573-11ed-ab56-dac502259ad0.png

四、总结

本文提出了一种新颖的框架,用于实现形状感知的零样本语义分割(简称SAZS)。该框架利用大规模预训练视觉语言模型的特征空间中包含的丰富先验信息,同时通过在边界检测约束任务上进行联合训练。此外,采用自监督谱分解来获取图像的特征向量,将其与网络预测融合增强模型感知形状的能力。相关性分析进一步凸显了形状紧密度和语言嵌入分布对分割性能的影响。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3639

    浏览量

    134441
  • DRNN
    +关注

    关注

    0

    文章

    2

    浏览量

    6112
  • Clip
    +关注

    关注

    0

    文章

    31

    浏览量

    6665
  • HSV
    HSV
    +关注

    关注

    0

    文章

    10

    浏览量

    2603

原文标题:CVPR2023 | 形状感知零样本语义分割

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    利用VLM和MLLMs实现SLAM语义增强

    语义同步定位与建图(SLAM)系统在对邻近的语义相似物体进行建图时面临困境,特别是在复杂的室内环境中。本文提出了一种面向对象SLAM的语义增强(SEO-SLAM)的新型SLAM系统,借助视觉语言模型
    的头像 发表于 12-05 10:00 126次阅读
    利用VLM和MLLMs实现SLAM<b class='flag-5'>语义</b>增强

    语义分割25种损失函数综述和展望

    综述提供了对25种用于图像分割的损失函数的全面且统一的回顾。我们提供了一种新颖的分类法,并详细审查了这些损失函数如何在图像分割中被定制和利用,强调了它们的重要特征和应用,并进行了系统的分类。摘要
    的头像 发表于 10-22 08:04 483次阅读
    <b class='flag-5'>语义</b><b class='flag-5'>分割</b>25种损失函数综述和展望

    请问模拟开关必须要跟ADC一放在模拟地与数字地的分割处吗?

    设计的系统中需要用到模拟开关TA5A3160,需要数字信号控制来决定通道的开关,那么为了减少对模拟信号的干扰需要把该芯片像ADC一放在模拟地与数字地的分割处吗,谢谢。
    发表于 08-30 06:03

    图像语义分割的实用性是什么

    图像语义分割是一种重要的计算机视觉任务,它旨在将图像中的每个像素分配到相应的语义类别中。这项威廉希尔官方网站 在许多领域都有广泛的应用,如自动驾驶、医学图像分析、机器人导航等。 一、图像语义
    的头像 发表于 07-17 09:56 415次阅读

    图像分割语义分割的区别与联系

    图像分割语义分割是计算机视觉领域中两个重要的概念,它们在图像处理和分析中发挥着关键作用。 1. 图像分割简介 图像分割是将图像划分为多个区
    的头像 发表于 07-17 09:55 917次阅读

    图像分割与目标检测的区别是什么

    的区别。 定义 图像分割是将图像划分为若干个区域或对象的过程,这些区域或对象具有相似的属性,如颜色、纹理或形状。图像分割的目的是将图像中的不同对象或区域分离出来,以便进行进一步的分析和处理。 目标检测则是在图像中
    的头像 发表于 07-17 09:53 1281次阅读

    图像分割语义分割中的CNN模型综述

    图像分割语义分割是计算机视觉领域的重要任务,旨在将图像划分为多个具有特定语义含义的区域或对象。卷积神经网络(CNN)作为深度学习的一种核心模型,在图像
    的头像 发表于 07-09 11:51 845次阅读

    机器人视觉威廉希尔官方网站 中常见的图像分割方法

    机器人视觉威廉希尔官方网站 中的图像分割方法是一个广泛且深入的研究领域。图像分割是将图像划分为多个区域或对象的过程,这些区域或对象具有某种共同的特征,如颜色、纹理、形状等。在机器人视觉中,图像分割
    的头像 发表于 07-09 09:31 665次阅读

    未来已来,多传感器融合感知是自动驾驶破局的关键

    限制,实时完成精准目标感知;3)支持目标的识别与样本采样同步完成,助力车厂建立数据优势,这也是未来车厂的核心竞争力之一。 特斯拉成功推出采用端到端方案的FSDV12版,很大一个助力因素是特斯拉的巨大
    发表于 04-11 10:26

    移动协作机器人的RGB-D感知的端到端处理方案

    本文提出了一种用于具有双目视觉的自主机器人的三维语义场景感知的端到端流程。该流程包括实例分割、特征匹配和点集配准。首先,利用RGB图像进行单视图三维语义场景
    发表于 02-21 15:55 682次阅读
    移动协作机器人的RGB-D<b class='flag-5'>感知</b>的端到端处理方案

    助力移动机器人下游任务!Mobile-Seed用于联合语义分割和边界检测

    精确、快速地划定清晰的边界和鲁棒的语义对于许多下游机器人任务至关重要,例如机器人抓取和操作、实时语义建图以及在边缘计算单元上执行的在线传感器校准。
    的头像 发表于 02-20 10:30 899次阅读
    助力移动机器人下游任务!Mobile-Seed用于联合<b class='flag-5'>语义</b><b class='flag-5'>分割</b>和边界检测

    深入解析SAMPro3D的三维场景样本分割威廉希尔官方网站

    SAMPro3D首先初始化3D提示,使用SAM在各个帧中生成相应的2D掩膜。然后,它根据所有帧中相应掩膜的质量过滤3D提示,优先选择在所有视图中都能产生高质量结果的提示。
    的头像 发表于 01-26 14:31 889次阅读
    深入解析SAMPro3D的三维场景<b class='flag-5'>零</b><b class='flag-5'>样本分割</b>威廉希尔官方网站

    浅析自动驾驶行业的视觉感知主流框架设计

    视觉感知系统主要以摄像头作为传感器输入,经过一系列的计算和处理,对自车周围的环境信息做精确感知。目的在于为融合模块提供准确丰富的信息,包括被检测物体的类别、距离信息、速度信息、朝向信息,同时也能够给出抽象层面的语义信息。
    发表于 01-26 11:25 680次阅读
    浅析自动驾驶行业的视觉<b class='flag-5'>感知</b>主流框架设计

    SegRefiner:通过扩散模型实现高精度图像分割

    一类常见的 Refinement 方法是 Model-Specific 的,其通过在已有分割模型中引入一些新模块,从而为预测 Mask 补充了更多额外信息,从而增强了已有模型对于细节的感知能力。
    的头像 发表于 12-28 11:24 1541次阅读
    SegRefiner:通过扩散模型实现高精度图像<b class='flag-5'>分割</b>

    新威廉希尔官方网站 在生物样本冷冻中的应用案例分析

    、生物分子等提供了重要的实验手段。   新威廉希尔官方网站 在生物液氮罐冷冻中的应用案例分析表明,这些创新方法为生物学研究提供了更高效、可靠和经济的样本处理解决方案。低温离心、冷冻探头威廉希尔官方网站 和冷冻显微镜威廉希尔官方网站 等
    发表于 12-26 13:30