0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

通用数据增强威廉希尔官方网站 !适用于任意数据模态的随机量化

CVer 来源:机器之心 2023-09-12 16:40 次阅读

本文提出了一种适用于任意数据模态的自监督学习数据增强威廉希尔官方网站 。

自监督学习算法在自然语言处理、计算机视觉等领域取得了重大进展。这些自监督学习算法尽管在概念上是通用的,但是在具体操作上是基于特定的数据模态的。这意味着需要为不同的数据模态开发不同的自监督学习算法。为此,本文提出了一种通用的数据增强威廉希尔官方网站 ,可以应用于任意数据模态。相较于已有的通用的自监督学习,该方法能够取得明显的性能提升,同时能够代替一系列为特定模态设计的复杂的数据增强方式并取得与之类似的性能。

a0c624c2-512a-11ee-a25d-92fbcf53809c.png

论文地址:https://arxiv.org/abs/2212.08663

代码:https://github.com/microsoft/random_quantize

简介 当前 Siamese 表征学习 / 对比学习需要利用数据增强威廉希尔官方网站 来构建同一个数据的不同样本,并将其输入两个并行的网络结构,从而产生足够强的监督信号。然而这些数据增强威廉希尔官方网站 往往非常依赖于模态特定的先验知识,通常需要手动设计或者搜索适用于当前模态的最佳组合。除了耗时耗力外,找到的最优数据增强方式也极难迁移到别的领域。例如,常见的针对于自然 RGB 图像的颜色抖动(color jittering)无法应用于除了自然图像以外的其他数据模态。

一般性地,输入数据可以被表征为由序列维度(sequential)和通道维度(channel)组成的二维向量。其中序列维度通常是模态相关的,例如图像上的空间维度、语音的时间维度以及语言的句法维度。而通道维度是模态无关的。在自监督学习中,masked modeling [1] 或者以 masking 作为数据增强 [2] 已经成为一种有效的学习方式。然而这些操作都作用于序列维度。为了能够广泛应用于不同数据模态,本文提出一种作用于通道维度的数据增强手段:随机量化(randomized quantization)。每个通道中的数据通过非均匀量化器进行动态量化,量化值是从随机划分的区间中随机采样的。通过这种方式,落在同一个区间内原始输入的信息差被删除,同时不同区间数据的相对大小被保留,从而达到 masking 的效果。

a0df4790-512a-11ee-a25d-92fbcf53809c.png

该方法在各种不同数据模态上超过了已有任意模态自监督学习方法,包括自然图像、3D 点云、语音、文本、传感器数据、医疗图像等。在多种预训练学习任务中,例如对比学习(例如 MoCo-v3)和自蒸馏自监督学习(例如 BYOL)都学到了比已有方法更优的特征。该方法还经过验证,适用于不同的骨干网络结构,例如 CNN 和 Transformer。

方法

量化(Quantization)指的是利用一组离散的数值表征连续数据,以便于数据的高效存储、运算以及传输。然而,一般的量化操作的目标是在不损失精确度的前提下压缩数据,因而该过程是确定性的,而且是设计为与原数据尽量接近的。这就限制了其作为增强手段的强度和输出的数据丰富程度。

本文提出一种随机量化操作(randomized quantization),将输入的每个 channel 数据独立划分为多个互不重叠的随机区间(

a0f4cca0-512a-11ee-a25d-92fbcf53809c.png

),并将落在各个区间内的原始输入映射到从该区间内随机采样的一个常数a105bf88-512a-11ee-a25d-92fbcf53809c.png

a1144422-512a-11ee-a25d-92fbcf53809c.png

随机量化作为自监督学习任务中 masking 通道维度数据的能力取决于以下三个方面的设计:1) 随机划分数值区间;2) 随机采样输出值以及 3)划分的数值区间个数。

具体而言,随机的过程带来了更加丰富的样本,同一个数据每次执行随机量化操作都可以生成不同的数据样本。同时,随机的过程也带来对原始数据更大的增强力度,例如随机划分出大的数据区间,或者当映射点偏离区间中值点时,都可以导致落在该区间的原始输入和输出之间的更大差异。

除此之外,也可以非常容易地通过适当减少划分区间的个数,提高增强力度。这样,当应用于 Siamese 表征学习的时候,两个网络分支就可以见到有足够信息差异的输入数据,从而构建足够强的学习信号,帮助到特征学习。 下图可视化了不同数据模态在使用了该数据增强方式之后的效果:

a125369c-512a-11ee-a25d-92fbcf53809c.png

实验结果

模态 1:图像

本文在 ImageNet-1K 数据集上评估了 randomized quantization 应用于 MoCo-v3 和 BYOL 的效果,评测指标为 linear evaluation。当作为唯一的数据增强方式单独使用的时候,即将本文的 augmentation 应用于原始图像的 center crop,以及和常见的 random resized crop(RRC)配合使用的时候,该方法都取得了比已有通用自监督学习方法更好的效果。

a1a7bafe-512a-11ee-a25d-92fbcf53809c.png

相比于已有的针对图像数据开发的数据增强方式,例如 color jittering (CJ),本文的方法有着明显的性能优势。同时,该方法也可以取代 MoCo-v3/BYOL 中一系列复杂的数据增强方式(Full),包括颜色抖动(color jittering)、随机灰度化(gray scale)、随机高斯模糊(Gaussian blur)、随机曝光(solarization),并达到与复杂数据增强方式类似的效果。

a1cfd8d6-512a-11ee-a25d-92fbcf53809c.png

模态 2:3D 点云

本文还在 ModelNet40 数据集的分类任务和 ShapeNet Part 数据集的分割任务上验证了 randomized quantization 相对于已有自监督工作的优越性。尤其在下游训练集数据量较少的情况下,本文的方法显著超过已有点云自监督算法。

a1e8e60a-512a-11ee-a25d-92fbcf53809c.png

模态 3:语音

在语音数据集上本文的方法也取得了比已有自监督学习方法更优的性能。本文在六个下游数据集上验证了该方法的优越性,其中在最难的数据集 VoxCeleb1 上(包含最多且远超其他数据集的类别个数),本文方法取得了显著的性能提升(5.6 个点)。

a20c9640-512a-11ee-a25d-92fbcf53809c.png

模态 4:DABS

DABS 是一个模态通用自监督学习的基准,涵盖了多种模态数据,包括自然图像、文本、语音、传感器数据、医学图像、图文等。在 DABS 涵盖的多种不同模态数据上,我们的方法也优于已有的任意模态自监督学习方式。

a2360854-512a-11ee-a25d-92fbcf53809c.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

原文标题:ICCV 2023 | 通用数据增强威廉希尔官方网站 !适用于任意数据模态的随机量化

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    适用于任意数据模态的自监督学习数据增强威廉希尔官方网站

    本文提出了一种适用于任意数据模态的自监督学习数据增强威廉希尔官方网站
    的头像 发表于 09-04 10:07 1113次阅读
    <b class='flag-5'>适用于</b><b class='flag-5'>任意</b><b class='flag-5'>数据</b><b class='flag-5'>模态</b>的自监督学习<b class='flag-5'>数据</b><b class='flag-5'>增强</b><b class='flag-5'>威廉希尔官方网站
</b>

    请问KCL适用于封闭面,这个封闭面可以自己任意画的吗?

    请问KCL适用于封闭面,这个封闭面可以自己任意画的吗?只要是闭合的都可以吗?
    发表于 06-10 07:51

    适用于Linux的通用

    `适用于Linux的通用库 (适用于Linux的UL)UL for Linux是一个易于使用的开源库,其结构类似于MCC的Windows产品(UL库)。它支持大多数流行的MCC USB设备,并附带
    发表于 08-31 14:02

    易飞扬发布通用液冷光模块威廉希尔官方网站 适用于任何规模和速率的液冷数据中心

    [中国,深圳,2021年7月29日]易飞扬宣布完成对于浸没型液冷光模块的威廉希尔官方网站 研究。该研究成果适用于易飞扬研发的所有数据中心光模块产品,可以为客户的浸没式液冷数据中心提供高可靠性和高性价
    发表于 07-29 10:07

    适用于STM32芯片的开发教程

    安富莱的论坛上也有很多有关单片机方面的有用的资料,大家可以参考。本文不仅适用于STM32芯片的开发,也适用于其它芯片。正文学习一款新的芯片,需要大家从官方获取两方面的资料,一个是相关的威廉希尔官方网站 文档,比如参数手册、
    发表于 12-09 06:54

    详解各种图像数据增强威廉希尔官方网站

    机器学习或深度学习模型的训练的目标是成为“通用”模型。这就需要模型没有过度拟合训练数据集,或者换句话说,我们的模型对看不见的数据有很好的了解。数据
    发表于 10-26 16:29

    USB标准适用于哪些应用

    USB标准适用于哪些应用 通用串行总线 (USB) 外设接口已广泛应用于所有个人计算平台及众多工业和基础设施平台。不过,与此同时,人们对适用于
    发表于 04-19 14:31 1807次阅读

    一种适用于任意余数基的高性能后向转换结构_杨鹏

    一种适用于任意余数基的高性能后向转换结构_杨鹏
    发表于 01-07 22:23 0次下载

    一种适用于SoC的瞬态增强型线性稳压器_张琪

    一种适用于SoC的瞬态增强型线性稳压器_张琪
    发表于 01-07 22:23 0次下载

    AN4148 适用于 FPS 应用的声音降噪威廉希尔官方网站

    AN4148 适用于 FPS 应用的声音降噪威廉希尔官方网站
    发表于 09-07 17:03 9次下载
    AN4148 <b class='flag-5'>适用于</b> FPS 应用的声音降噪<b class='flag-5'>威廉希尔官方网站
</b>

    适用于图书推荐的数据挖掘模型

    针对传统推荐算法精准度不高的问题,在潜在狄利克雷分布( LDA)主题挖掘模型的基础上提出了一种新的适用于图书推荐(BR)的数据挖掘模型-BR_LDA模型。通过对目标借阅者的历史借阅数据与其他图书
    发表于 01-04 15:18 0次下载
    <b class='flag-5'>适用于</b>图书推荐的<b class='flag-5'>数据</b>挖掘模型

    AD2011:低成本,适用于OEM应用的3.5位DPM过时数据

    AD2011:低成本,适用于OEM应用的3.5位DPM过时数据
    发表于 05-14 13:13 11次下载
    AD2011:低成本,<b class='flag-5'>适用于</b>OEM应用的3.5位DPM过时<b class='flag-5'>数据</b>表

    适用于压电式蜂鸣器的威廉希尔官方网站 规格

    适用于压电式蜂鸣器的威廉希尔官方网站 规格免费下载。
    发表于 04-13 15:28 4次下载

    适用于所有atmega328p项目的通用

    电子发烧友网站提供《适用于所有atmega328p项目的通用板.zip》资料免费下载
    发表于 08-03 09:45 8次下载
    <b class='flag-5'>适用于</b>所有atmega328p项目的<b class='flag-5'>通用</b>板

    用于任意排列多相机的通用视觉里程计系统

    如何让多相机视觉SLAM系统更易于部署且对环境更具鲁棒性?本文提出了一种适用于任意排列多相机的通用视觉里程计系统。在KITTI-360和MultiCamData数据集上验证了该方法对于
    的头像 发表于 12-13 11:22 194次阅读
    <b class='flag-5'>用于</b><b class='flag-5'>任意</b>排列多相机的<b class='flag-5'>通用</b>视觉里程计系统