0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于视觉transformer的高效时空特征学习算法

CVer 来源:ECCV 2022 作者:ECCV 2022 2022-12-12 15:01 次阅读

二、背景

高效的时空建模(Spatiotemporal modeling)是视频理解和动作识别的核心问题。相较于图像的Transformer网络,视频由于增加了时间维度,如果将Transformer中的自注意力机制(Self-Attention)简单扩展到时空维度,将会导致时空自注意力高昂的计算复杂度和空间复杂度。许多工作尝试对时空自注意力进行分解,例如ViViT和Timesformer。这些方法虽然减小了计算复杂度,但会引入额外的参数量。本文提出了一种简单高效的时空自注意力Transformer,在对比2D Transformer网络不增加计算量和参数量情况下,实现了时空自注意力机制。并且在Sthv1&Sthv2, Kinetics400, Diving48取得了很好的性能。

三、方法

视觉Transofrmer通常将图像分割为不重叠的块(patch),patch之间通过自注意力机制(Self-Attention)进行特征聚合,patch内部通过全连接层(FFN)进行特征映射。每个Transformer block中,包含Self-Attention和FFN,通过堆叠Transformer block的方式达到学习图像特征的目的。

在视频动作识别领域,输入的数据是连续采样的多帧图像(常用8帧、16帧、32帧等)学习视频的时空特征,不仅要学习单帧图像的空间视觉特征,更要建模帧之间的时域特征。本文提出一种基于视觉transformer的高效时空特征学习算法,具体来说,我们通过将patch按照一定的规则进行移动(patch shift),把当前帧中的一部分patch移动到其他帧,同时其他帧也会有一部分patch移动到当前帧。经过patch移动之后,对每一帧图像的patch分别做Self-Attention,这一步学习的特征就同时包含了时空特征。具体思想可以由下图所示:

9564e2d0-7944-11ed-8abf-dac502259ad0.png

在常用的2D图像视觉Transformer网络结构上,将上述patch shift操作插入到self-attention操作之前即可,无需额外操作,下图是patch shift transformer block,相比其他视频transformer的结构,我们的操作不增加额外的计算量,仅需进行内存数据移动操作即可。对于patch shift的移动规则,我们提出几种设计原则:1. 不同帧的块尽可能均匀地分布。2.合适的时域感受野。3.保持一定的移动块比例。具体的分析,读者可以参考正文。

我们对通道移动(Channel shift) 与 块移动(patch shift)进行了详尽的分析和讨论,这两种方法的可视化如下:

95ab73a8-7944-11ed-8abf-dac502259ad0.png

通道移动(Channel shift) 与 块移动(patch shift)都使用了shift操作,但channel shift是通过移动所有patch的部分channel的特征来实现时域特征的建模,而patch shift是通过移动部分patch的全部channel与Self-attention来实现时域特征的学习。可以认为channel shift的时空建模在空域是稠密的,但在channel上是稀疏的。而patch shift在空域稀疏,在channel上是稠密的。因此两种方法具有一定的互补性。基于此,我们提出交替循环使用 patchshift和channel shift。网络结构如下图所示:

95c20c4e-7944-11ed-8abf-dac502259ad0.png

四、实验结果

1. 消融实验

95eafd70-7944-11ed-8abf-dac502259ad0.png

2. 与SOTA方法进行对比

961daf2c-7944-11ed-8abf-dac502259ad0.png

969a1bf2-7944-11ed-8abf-dac502259ad0.png

9761b4dc-7944-11ed-8abf-dac502259ad0.png

3. 运行速度

可以看到,PST的实际推理速度和2D的Swin网络接近,但具有时空建模能力,性能显著优于2D Swin。和Video-Swin网络相比,则具有明显的速度和显存优势。

9789f1a4-7944-11ed-8abf-dac502259ad0.png

4. 可视化结果

图中从上到下依次为Kinetics400, Diving48, Sthv1的可视化效果。PST通过学习关联区域的相关性,并且特征图能够反映出视频当中动作的轨迹。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 内存
    +关注

    关注

    8

    文章

    3023

    浏览量

    74026

原文标题:ECCV 2022 | 阿里提出:快速动作识别的时空自注意力模型

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NPU与机器学习算法的关系

    在人工智能领域,机器学习算法是实现智能系统的核心。随着数据量的激增和算法复杂度的提升,对计算资源的需求也在不断增长。NPU作为一种专门为深度学习等机器
    的头像 发表于 11-15 09:19 445次阅读

    【《大语言模型应用指南》阅读体验】+ 基础知识学习

    语言的表达方式和生成能力。通过预测文本中缺失的部分或下一个词,模型逐渐掌握语言的规律和特征。 常用的模型结构 Transformer架构:大语言模型通常基于Transformer架构,这是一种能够处理序列数据
    发表于 08-02 11:03

    opencv图像识别有什么算法

    OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉和机器学习软件库,提供了大量的图像处理和计算机视觉相关的算法。以下是一些常见
    的头像 发表于 07-16 10:40 1023次阅读

    Transformer能代替图神经网络吗

    Transformer作为一种在处理序列数据方面表现出色的深度学习模型,自其提出以来,已经在自然语言处理(NLP)、时间序列分析等领域取得了显著的成果。然而,关于Transformer是否能完全代替图神经网络(GNN)的问题,需
    的头像 发表于 07-12 14:07 450次阅读

    深度学习在工业机器视觉检测中的应用

    识别等任务。传统的机器视觉检测方法通常依赖于手工设计的特征和固定的算法,难以应对复杂多变的工业环境。而深度学习的引入,为工业机器视觉检测带来
    的头像 发表于 07-08 10:40 1052次阅读

    机器学习算法原理详解

    机器学习作为人工智能的一个重要分支,其目标是通过让计算机自动从数据中学习并改进其性能,而无需进行明确的编程。本文将深入解读几种常见的机器学习算法原理,包括线性回归、逻辑回归、支持向量机
    的头像 发表于 07-02 11:25 1010次阅读

    机器学习的经典算法与应用

    关于数据机器学习就是喂入算法和数据,让算法从数据中寻找一种相应的关系。Iris鸢尾花数据集是一个经典数据集,在统计学习和机器学习领域都经常被
    的头像 发表于 06-27 08:27 1652次阅读
    机器<b class='flag-5'>学习</b>的经典<b class='flag-5'>算法</b>与应用

    通过强化学习策略进行特征选择

    来源:DeepHubIMBA特征选择是构建机器学习模型过程中的决定性步骤。为模型和我们想要完成的任务选择好的特征,可以提高性能。如果我们处理的是高维数据集,那么选择特征就显得尤为重要。
    的头像 发表于 06-05 08:27 349次阅读
    通过强化<b class='flag-5'>学习</b>策略进行<b class='flag-5'>特征</b>选择

    视觉Transformer基本原理及目标检测应用

    视觉Transformer的一般结构如图2所示,包括编码器和解码器两部分,其中编码器每一层包括一个多头自注意力模块(self-attention)和一个位置前馈神经网络(FFN)。
    发表于 04-03 10:32 3481次阅读
    <b class='flag-5'>视觉</b><b class='flag-5'>Transformer</b>基本原理及目标检测应用

    基于Transformer模型的压缩方法

    基于Transformer架构的大型模型在人工智能领域中发挥着日益重要的作用,特别是在自然语言处理(NLP)和计算机视觉(CV)领域。
    的头像 发表于 02-22 16:27 650次阅读
    基于<b class='flag-5'>Transformer</b>模型的压缩方法

    一文详解Transformer神经网络模型

    Transformer模型在强化学习领域的应用主要是应用于策略学习和值函数近似。强化学习是指让机器在与环境互动的过程中,通过试错来学习最优的
    发表于 02-20 09:55 1.4w次阅读
    一文详解<b class='flag-5'>Transformer</b>神经网络模型

    分析 丨AI算法愈加复杂,但是机器视觉的开发门槛在降低

    机器视觉系统依赖于机器学习(machine learn)和深度学习(deep learn),尤其是深度学习的重要分支“卷积神经网络”在图像识别领域的应用,使机器
    的头像 发表于 02-19 16:49 673次阅读
    分析 丨AI<b class='flag-5'>算法</b>愈加复杂,但是机器<b class='flag-5'>视觉</b>的开发门槛在降低

    计算机视觉的十大算法

    随着科技的不断发展,计算机视觉领域也取得了长足的进步。本文将介绍计算机视觉领域的十大算法,包括它们的基本原理、应用场景和优缺点。这些算法在图像处理、目标检测、人脸识别等领域有着广泛的应
    的头像 发表于 02-19 13:26 1236次阅读
    计算机<b class='flag-5'>视觉</b>的十大<b class='flag-5'>算法</b>

    基于Transformer的多模态BEV融合方案

    由于大量的相机和激光雷达特征以及注意力的二次性质,将 Transformer 架构简单地应用于相机-激光雷达融合问题是很困难的。
    发表于 01-23 11:39 824次阅读
    基于<b class='flag-5'>Transformer</b>的多模态BEV融合方案

    基于机器视觉和深度学习的焊接质量检测系统

    的一致性和准确性。   机器视觉威廉希尔官方网站 为焊接质量检测提供了高分辨率的图像数据。通过搭载高速、高分辨率相机,系统能够实时捕捉焊接过程中的细节,包括焊缝的形状、尺寸和表面特征等。这些图像数据为后续的深度学习
    的头像 发表于 01-18 17:50 797次阅读