基于不同数据模态的人类动作识别综述

本文对最近被 TPAMI 接收的一篇综述文章 Human Ac tion Recognition from Various Data Modalities: A Review（基于不同数据模态的人类动作识别综述）进行解读。

1 概述

人类动作识别（Human Action Recognition, HAR）旨在理解人类的行为，并为每个行为分配一个标签。多种不同的数据形态都可以用来表示人类的动作和行为。这些模态可以分为 2 类：视觉模态和非视觉模态，视觉模态和非视觉模态的主要区别在于：视觉模态的数据对人类行为的表示相对直观，但是非视觉模态的数据则不是。视觉模态主要包括：如 RGB，骨架，深度，红外，点云，事件流（event stream）等数据模态，而非视觉模态则主要包括音频，加速度，雷达，wifi 信号等数据模态，如图 1 所示。这些数据模态是对不同的信息来源进行编码，根据应用场景的不同，不同模态的数据有着不同的独特优势。

图 1 HAR 任务中使用到的数据模态该综述对基于不同数据模态的深度学习 HAR 方法的最新进展做了一个综合调研。介绍调研的主要内容分为三部分（1）当前主流的单模态深度学习方法。（2）当前主流的多模态深度学习方法，包括基于融合（fusion）和协同学习（co-learning）的学习框架。（3）当前 HAR 任务的主流数据集。

2 单模态学习方法

前文中已经提到，不同模态具有着独特的优势，在这些模态中，单独使用 RGB / 光流模态和骨架模态的 HAR 工作相对较多。而其他模态由于其大多存在一些固有的缺陷，所以单独使用的情况较少，大部分情况下都是与其他模态结合使用。

2.1 RGB 和光流模态

RGB 模态指的是由 RGB 相机捕获的图像或序列。而光流则是视频图像中同一对象（物体）像素点移动到下一帧的移动量，由于通常是由 RGB 模态数据所进一步生成，所以下文中把 RGB 和光流模态统称为 RGB 模态。RGB 模态的优点和缺点都非常明显，优点主要有：（1）RGB 数据容易收集，通常是最常用的数据模态。（2）RGB 模态包含所捕获的场景上下文的信息。（3）基于 RGB 的 HAR 方法也可以用来做 pretrained model。缺点主要有：（1）由于 RGB 数据中存在背景、视点、尺度和光照条件的变化，所以在 RGB 模态中进行识别通常具有挑战性。（2）RGB 视频数据量较大，计算成本较高。图 2 展示了基于 RGB 模态数据的 HAR 方法的主要分类，下面分别对这些方法进行介绍。

图 2 基于 RGB / 光流模态的 HAR 方法分类

基于 2D 双流网络的方法。

这类方法的核心思想是，通过两个或多个 backbone 学习不同的视频特征，[1]和 [2] 是这类方法中最具代表性的工作，[1]的两个 stream 分别输入 RGB 帧和多帧的光流，以分别学习外观特征和运动特征, RGB + 光流的模态组合也被很多后续的工作所效仿。[2]则对低分辨率 RGB 帧和高分辨率 RGB 帧的中心裁剪输入两个 stream 中，以降低计算量。精确的光流获取通常需要很高的计算成本，所以如何在较低的计算成本下获取光流的近似或代替也是此类方法一个研究重点。如 [3] 提出了一个基于知识蒸馏的框架实现从使用光流训练的 teacher network 到使用 motion vector 作为输入的 student 网络的知识迁移。motion vector 可以直接从 compressed videos 中获得，而不再需要额外的计算。

基于 RNN 的方法

2D 双流网络的一个缺点是对时序上的长期依赖关系的建模不足，那么使用时序建模的网络如 LSTM，则可以弥补这一点。这类基于 RNN 的方法依据其核心贡献又可以分为 4 小类：（1）2D CNN 与 RNN 的组合：如 [4] 使用 2D CNN 提取每个 frame 的特征，然后再使用 LSTM 生成动作标签。（2）attention 机制的引入，attention 机制主要包括空间的 attention 和时序的 attention，或两者的组合。比如 [5] 设计了一个多层的 LSTM 模型，可以递归地输出对下一帧的输入 feature map 的 attention map。（3）使用 GRU 等模型来代替 RNN，相比于 RNN，GRU 的参数更少，但在 HAR 任务上通常可以提供与 LSTM 相近的性能。（4）2D 双流网络和 RNN 的结合，比如 [6] 中利用 2D 双流网络分别提取 spatial 和短期的运动特征，然后再分别输入 2 个 LSTM 来提取长时的运动信息。

基于 3D CNN 的方法。

基于 RNN 的方法通常是对 CNN 已经提取出的 feature 进行操作，而不是对原始的图像序列进行操作。基于 3D CNN 的方法则可以做到这一点。基于 3D CNN 的方法依据其核心贡献同样分为 4 小类：（1）2D CNN 到 3D CNN 的扩展，[7]使用 3D conv 从原始的视频中直接学习时空特征。（2）对长时序依赖关系的建模，3D CNN 有着 CNN 共同的特点，侧重于对 local 信息的提取，而对 global 信息的提取能力不足。[8]中提出了一个长时时间卷积框架，以降低空间分辨率为代价，增加了 3D 卷积在 temporal 维度上的感受野。（3）3D conv 的分解：3D 卷积通常包含大量的参数，也需要大量的训练数据，因此其计算量较大。[9]提出将 3D conv 分解成了空间上的 2d conv 和时间维度上的 1d conv。（4）对 3D conv 中其他问题的讨论，比如 [10] 从概率的角度分析了 3d conv 中的时空融合，[11]提出了一个随机均值缩放的正则化方法来解决过拟合问题。

基于 transformer 的方法。

transformer 是一种以 attention 机制为核心的模型，其在长时序建模、多模态融合和多任务处理等方面具有良好的性能，由于 transformer 在 NLP 领域的成功应用，目前也有很多将 transformer 应用到 HAR 任务中的方法，如 [12] 通过把 video 分解成 frame-level 的 patches，将 VIT 应用到了视频中，并且在模型的每个 block 中分别应用了 spatial 和 temporal 的 attention。但是，transformer 的通病是其所需的显存和计算开销一般较大，所以也有很多工作，研究了如何降低基于 transformer 的视频理解模型的复杂度，比如 [13] 将 3d 的视频帧转换成 2d 的 super image 作为 transformer 的输入。[14]使用了在 spatial 维度进行特征处理的 backbone（例如 2D CNN）和基于 temporal attention 的 encoder 来达到精度和速度之间的权衡。

2.2 骨架数据模态

骨架序列表人体关节的轨迹，这些轨迹可以用来表征人体的运动，因此骨架数据是比较适配于 HAR 任务的一种数据模态，骨架数据提供的是身体结构与姿态信息，其具有两个明显的优点：（1）具有比例不变性。（2）对服装纹理和背景是鲁棒的。但同时也有两个缺点：（1）骨架信息的表示比较稀疏，存在噪声。（2）骨架数据缺少人 - 物交互时可能存在的形状信息。图 3 展示了基于骨架模态数据的 HAR 方法的主要分类，下面分别对这些方法进行介绍。

图 3 基于骨架数据模态的 HAR 方法分类

基于 RNN 的方法。

使用 RNN 的核心原因是希望能够学习时序数据中的动态依赖性。这类基于 RNN 和骨架数据的 HAR 方法，大多聚焦于 RNN 或 LSTM 等模型在 HAR 任务上的改进和应用。如 [15] 将人体骨骼分为 5 个部分，这 5 部分分别输入到多个双向 RNN 中，然后再将其输出进行分层融合，以生成动作的高级表示。[16]提出了一个部分感知 LSTM，并interwetten与威廉的赔率体系了 LSTM 单元中不同身体部分之间的关系。

基于 CNN 的方法。

CNN 以其在空间维度上卓越的特征提取和学习能力，在 2D 图像识别任务中取得了巨大的成功。把 CNN 应用到基于骨架数据的 HAR 任务中时，一个研究重点是对时空信息的建模。如 [17] 和[18]的思路是将骨架序列数据编码成图像，然后送入 CNN 中进行动作识别，它们分别给出了骨骼光谱图和关节轨迹图。此外也有一些工作专注于解决某些特定的问题，比如视点变化问题和计算成本过高的问题。

基于 GNN/GCN 的方法。

将人体的骨架数据表示为一个序列或 2d/3d 的 image，并不能对身体关节作出完全准确的模拟。而人体的骨架天然地就可以表示为一个 graph，因此基于 GNN 或 GCN 的 HAR 方法成为了近两年一个热门的研究方向。[19]将人体的骨架表示为了一个有向无环图以有效地合并骨骼和关节信息。[20]设计了一个时空 GCN（Spatial-temporal GCN）以从骨架数据中分别学习 spatial 和 temporal 的 feature。

基于 transformer 的方法。

将 transformer 应用于骨骼序列的 HAR 任务时，研究的重点仍然是时空维度的建模。比如 [21] 中提出 Spatial-Temporal Specialized Transformer (STST)，其由一个 spatial transformer 模块和一个 temporal transformer 模块组成。spatial transformer 模块用于捕捉 frame-level 的姿态信息，temporal transformer 用于在 temporal 维度上捕捉长动作。

2.3 深度模态

深度图中的像素值表示的是从给定视点到场景中的点的距离，所以构建深度图的本质是将 3D 数据转换为 2D 的 image。该模态通常对颜色和纹理的变化比较鲁棒，随着威廉希尔官方网站的发展，现在已经有多种设备可以捕获场景中的深度图。现有的对深度数据学习的方法大多数还是利用 CNN 提取深度图中的 feature。深度数据可以提供几何形状信息，但是对外观数据的提供是缺失的，所以深度数据通常不单独使用，而是与其他模态的数据融合使用。

2.4 红外模态

红外数据的获取主要有两种方式：（1）主动式，发射红外线，利用目标反射的红外线感知场景中的物体。（2）被动式，通过感知物体发出的红外线来感知物体。在目前基于深度学习的方法中，比较多的做法是把红外图像作为其中一个 stream 输入双流或多流网络中。红外数据以其不需要依赖外部环境的可见光的特点，特别适合于夜间的 HAR，但是，红外图像也有着对比度低和信噪比低的固有缺点。

2.5 点云模态

点云数据由大量的点组成，这些点可以用来表示物体的空间分布和表面特征。作为一种三维数据形态，点云具有很强的表达物体轮廓和三维几何形状的能力，且对视点的变化不敏感。但是点云中通常存在噪声和高度不均匀的点分布。[22]将原始的点云序列转换为规则的体素集合，并应用 temporal rank pooling 将 3D 动作信息编码到一个单独的 voxel set 中。最后通过 PonitNet++[23]将体素表示应用于 3D HAR 任务中。但是将点云转换为体素不仅效率较低，而且会带来量化误差。[24]提出直接堆叠多帧点云，并通过聚合 temporal 和 spatial 维度上的相邻点的信息计算局部特征。

2.6 事件流模态

事件照相机（event camera）可以捕捉照明条件的变化并为每个像素独立产生异步事件。传统的摄像机通常会捕捉整个图像阵列，而事件摄像机仅响应视觉场景的变化。事件照相机能够有效地滤除背景信息，而只保留前景运动信息，这样可以避免视觉信息中的大量冗余，但是其捕捉到的信息通常在时间和空间维度上是稀疏的，而且是异步的。因此一些现有的方法主要聚焦于设计事件聚合策略，将事件摄像机的异步输出转换为同步的视觉帧。

2.7 音频模态

音频信号通常与视频信号一起提供，由于音频和视频是同步的，所以音频数据可以用定位动作。因为音频信号中的信息量是不足的，所以单独使用音频数据执行 HAR 任务相对比较少见。更常见的情况是音频信号作为 HAR 的补充信息，与其他模态（如 rgb 图像）一起使用。

2.8 加速度模态

加速度信号通常是从加速度计中获得，它具有以下的优点：（1）对遮挡、视点、照明、背景等因素的变化具有鲁棒性。（2）对某个特定的动作，人们一般都使用相似的方式完成，所以加速度信号对同一个动作的类内方差较小。（3）加速模态可以用于细粒度的 HAR。但同时，该模态也存在一些固有的局限性：（1）志愿者需要随身佩戴传感器，而且这些传感器通常比较笨重。（2）传感器在人体上的具体位置对性能会有比较明显的影响。

2.9 雷达模态

雷达的工作原理是发射电磁波并接收来自目标的回波，其优势是对照明和天气条件变化鲁棒，并且具有穿墙感知的能力，但昂贵的传感器成本是制约其实际应用的重要因素。现有的方法将多普勒频谱图视作时间序列或图像，并分别送入 RNN 和 CNN 中以预测行为类别，目前也有一些方法，将雷达模态的数据纳入到了双流网络结构中。

2.10 wifi 模态

wifi 是现在最常见的室内无线信号类型之一，由于人体是无线信号的良好反射体，所以 wifi 信号可以用于 HAR 任务，现有的基于 wifi 的 HAR 方法大多使用信道状态信息（CSI）来执行 HAR 任务。如何更有效地利用 CSI 的相位和幅度信息，以及如何在处理动态环境时提高鲁棒性，是目前基于 wifi 的 HAR 任务所面临的主要挑战。

3 多模态学习方法

多模态机器学习是一种建模方法，旨在处理和关联来自多模态的视觉信息，通过聚合各种数据模态的优势，多模态学习可以在 HAR 任务上得到更鲁棒和准确的结果。多模态学习方法主要有两种，融合（fusion）和协同学习（co-learning）。其中融合指的是对来自两个或更多模态的信息进行集成，并将其用于训练或推理，而协同学习指的则是对不同模态之间的知识进行迁移。图 4 展示了多模态学习方法的分类，对于每种类型的多模态学习方法，本篇解读会介绍原综述文章中提及的一些具有代表性的方法，更多的方法介绍请直接阅读原综述文章。

图 4 多模态 HAR 方法分类

3.1 HAR 任务中的多模态融合

模态融合的目的是利用不同数据模态的互补优势，以达到更好的识别性能。现有的多模态融合方案主要有两种：（1）评分融合（score fusion），即对不同模态输出的 score 做融合，例如使用加权平均或学习一个分数融合模型。（2）特征融合，即对来自不同模态的特征进行组合。数据融合（在特征提取之前就融合不同模态的输入数据）可以看成是特征融合，因为某一模态的数据可以被视为该模态的原始特征。依据输入模态的不同，现有的多模态融合方法大概可以分为视觉模态之间的融合，与视觉 + 非视觉模态之间的融合两种，下面对这两类方法分别做一个较为详细的介绍。

视觉模态之间的融合

（1）RGB + 深度模态：RGB 和深度模态分别能够捕捉外观信息和 3D 形状信息，因此它们具有比较强的互补性。[25]提出了一个 four-stream CNN，其中一个 stream 输入 RGB 数据，剩下三个 stream 分别输入三个不同视点下捕捉的深度运动图，融合策略选择评分融合。[26]将 RGB 和深度数据看做两对 RGB 和深度的动态图像，通过一个协同训练的 CNN 提取特征，并联合优化排序损失和 softmax 损失来进行训练。[27]同样提出了一个多流混合网络，该网络分别使用 CNN 和 3D convLSTM 来提取来自 RGB 和深度图的特征，然后通过典型关联分析（Canonical Correlation Analysis）进行模态间的信息融合。

（2）RGB + 骨架模态：骨架模态可以提供身体位置和关节运动信息，同样和 RGB 模态是互补的。[28]提出了一个双流深度网络，两个 stream 分别是 CNN 和 RNN，用以分别处理 RGB 和骨架数据，融合方式同时尝试了特征融合和分数融合，并发现应用特征融合策略可以取得更好的效果。[29]设计了一个 three-stream 的 3D CNN 来分别处理人体姿态、运动和 RGB 图像，通过马尔科夫链来融合三个 stream，并用于动作分类。[30]提出了一种时空 LSTM 网络，它能够在 LSTM 单元内有效地融合 RGB 和骨架特征。

（3）深度图 + 骨架模态：[31]将身体的每个部分与其他部分之间的相对几何关系作为骨架特征，将不同身体部分周围的深度图像块作为外观特征，以编码身体 - 对象和身体部分 - 身体部分之间的关系，进而实现可靠的 HAR。[32]提出了一种 three-stream 的 2D CNN，对深度和骨架序列提取的三种不同的手工特征进行分类，然后采用评分融合模块得到最终的分类结果。

（4）RGB + 深度图 + 骨架模态：这类方法大多是前文提到的三类多模态融合方法的扩展。如 [33] 研究了模态之间的相关性，将它们分解成相关和独立的成分，然后使用一个结构化的基于稀疏性的分类器输出分类结果。[34]从每个模态提取 temporal feature map，然后再在模态维度对这些 feature map 执行 concat 操作，以获得跨 RGB、骨架和深度模态的时变信息。[35]提出了一个 five-stream network，历史运动图像、深度运动图、以及三个分别从 RGB, 深度和骨架序列生成的骨架图像分别是这 5 个 stream 的输入。

（5）其他视觉模态间的融合：这些方法的思路与前文中所述的基本类似，比如 [36] 中提出了一个基于 TSN[37]的多模态融合模型，RGB、深度图、红外和光流序列分别使用 TSN 执行初始分类，然后使用一个融合网络，以获取最终的分类分数。

视觉模态 + 非视觉模态的融合

同样地，视觉与非视觉模态的融合，其目的也是希望能够利用不同模态之间的互补性，得到更精确的 HAR 模型。

（1）视频与音频的融合：前文中已经提到，音频可以为视频的外观和运动信息提供补充信息。所以目前已经有一些基于深度学习的方法来融合这种模态的数据，比如 [38] 引入了一个 three-stream 的 CNN，从音频信号，RGB 帧和光流中分别提取特征，然后再进行融合（在该文中，特征融合的效果好于评分融合）。[39]是 [37] 的一个改进，其在每个时间绑定窗口内融合多模态输入序列（也就是说，融合来自不同模态的信息可能是异步的）。[40]利用音频信号减少了视频中的时间冗余，其思想是把使用 video clips 训练的 teacher network 中的知识提取到使用图像 - 音频对训练的 student network 中。

（2）视频与加速度模态的融合：现有的基于深度学习的视频与加速度模态融合的方法大多是采用双流或多流网络的架构，比如 [41] 将惯性信号表示为图像，然后使用两个 CNN 分别处理视频和惯性信号，最后使用评分融合的方法融合两个模态的信号。[42]则是将 3D 视频帧序列和 2D 的惯性图像分别送入 3D CNN 和 2D CNN 中，然后执行模态间的融合。

（3）其他类型的模态融合：这类方法中，相对比较有代表性的是 [43] 和[44]，其中 [43] 的核心思想是将非 RGB 模态的数据，包括骨架、加速度和 wifi 数据都转换成彩色图像，然后送入 CNN 中。[44]则提出了一种 video-audio-text transformer（VATT），将视频，音频和文本数据的线性投影作为 transformer 的输入，并提取多模态的特征表示，VATT 还量化了不同模态的粒度，并且采用视频 - 音频对和视频 - 文本对的 NCE Loss 进行训练。

3.2 HAR 任务中的多模态协同学习

多模态协同学习旨在探索如何利用辅助模态学习到的知识帮助另一个模态的学习，希望通过跨模态的知识传递和迁移可以克服单一模态的缺点，提高性能。多模态协同学习与多模态融合的一个关键区别在于，在多模态协同学习中，辅助模态的数据仅仅在训练阶段需要，测试阶段并不需要。所以多模态协同学习尤其适用于模态缺失的场景。此外对于模态样本数较小的场景，多模态协同学习也可以起到一定的帮助作用。

视觉模态的协同学习

（1）RGB 和深度模态的协同学习。如 [45] 使用知识蒸馏的方法实现模态间的协同学习，其中 teacher network 输入深度图，而 student network 输入的则是 RGB 图像。[46]提出了一种基于对抗学习的知识提取策略用来训练 student network。[47]则提出了一种合作学习策略，即在不同的输入模态中，使用分类损失最小的模态所生成的预测标签，作为其他模态训练的附加监督信息。（2）RGB 和骨架模态的协同学习。如 [48] 利用 CNN+LSTM 执行基于 RGB 视频的分类，并利用在骨架数据上训练的 LSTM 模型充当调节器，强制两个模型的输出特征相似。（3）其他视觉模态的协同学习。除了 RGB、骨架、深度模态的协同学习之外，目前也有一些其他的视觉模态的协同学习的工作，比如 [49] 提出了一种可迁移的生成模型，该模型使用红外视频作为输入，并生成与其对应的 RGB 视频的虚假特征表达。该方法的生成器由两个子网络组成，第一个子网络用以区分生成的虚假特征和真实的 RGB 特征，第二个子网络将红外视频的特征表达和生成的特征作为输入，执行动作的分类。

视觉和非视觉模态的协同学习

这类工作可以大致分为两种类型，第一种类型是在不同模态之间进行知识的迁移，如 [50] 中的 teacher network 使用非视觉模态训练，而 student network 使用 RGB 模态作为输入，通过强制 teacher 和 student 的 attention map 相似以弥补模态间的形态差距，并实现知识的提炼。第二种类型是利用不同模态之间的相关性进行自监督学习，比如 [51] 分别利用音频 / 视频模态中的无监督聚类结果作为视频 / 音频模态的监督信号。[52]使用视频和音频的时间同步信息作为自监督信号。

4 现有的数据集

原论文中的 table 6 展示了目前 HAR 任务的各个数据模态的数据集，展示如下：

可以看到，对于绝大部分数据模态，目前都存在对应的数据集，这些数据集也在很大程度上方便了我们对 HAR 任务的研究和探索。 5 总结 作者在原综述文章的最后一部分展望了 HAR 领域未来的发展方向，作者认为有 6 个方向可能是未来研究和探索的重点，分别是：（1）新的数据集（比如不受控环境下的多模态数据集）；（2）多模态学习；（3）高效的行为分析；（4）早期行为识别（即只有一部分动作被执行）；（5）大规模训练；（6）无监督和半监督学习。作者还提到，他们会定期地收集 HAR 领域的最新进展并更新到本综述文章中。

6 个人思考

该综述调研了约 500 篇文章，涵盖了 HAR 任务中可能使用的各个模态，是对这一领域非常全面的总结。从综述中可以看到，无论是单模态还是多模态的模型，其 backbone 通常都是以下几种网络之一（或它们的组合）:

（1）2D CNN（空间信息的提取）；

（2）RNN/LSTM/GRU（时序信息的提取）；

（3）3D CNN（时间 + 空间维度的信息提取）；

（4）GNN/GCN（节点之间的关系抽取）；

（5）transformer（长时序建模）。

对于 HAR 任务中的多模态融合来说，目前最常见的做法是使用一个双流或多流网络，每个 stream 分别提取一个模态的特征，然后再后接一个多模态融合模块。对于 HAR 任务中的多模态协同学习来说，目前常见的做法则是使用跨模态知识蒸馏或对抗学习的框架完成。这些 backbone 和融合 / 协同学习策略的组合，可以概括目前 HAR 领域的大部分文章。对不同模态的数据，往往需要不同的模型来提取其特征，这对于 HAR 的模型设计来说是非常不方便的。有时为了适配现有的模型，需要对某些模态的数据做一些特定的预处理（比如目前提取音频模态特征的一种常用方法是，将一维的音频信号转换成二维的频谱图，再送入 CNN 中进行特征提取），这些特定的预处理可能存在一定的信息丢失。所以是否可以有一种通用的模型，能够比较好地处理各种形态不同的多模态数据呢？这是目前整个 AI 界都比较关注的一个问题，而其在 HAR 任务上体现的尤为明显。transformer 目前在图像、文本等模态中都取得了非常好的效果，它能否成为我们期待的通用模型呢？以现在 AI 领域日新月异的发展速度，我相信我们很快就可以看到答案。另外，该综述的多模态学习部分，按照使用的模态对现有的工作进行了分类总结，而多模态学习的研究核心，很大的一部分在于模态间的融合或协同学习的策略，如果能够按照具体的融合或协同学习的策略对现有的工作进行分类总结，可能会更好一些。

参考文献

[1] K. Simonyan and A. Zisserman, "Two-stream convolutional networks for action recognition in videos," in Advances in Neural Information Processing Systems, vol. 27, 2014.

[2] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and L. Fei-Fei, "Large-scale video classification with convolutional neural networks," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014, pp. 1725-1732.

[3] B. Zhang, L. Wang, Z. Wang, Y. Qiao, and H. Wang, "Real-time action recognition with enhanced motion vector cnns," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 2718-2726.

[4] J. Donahue, L. Anne Hendricks, S. Guadarrama, M. Rohrbach, S. Venugopalan, K. Saenko, and T. Darrell, "Long-term recurrent convolutional networks for visual recognition and description," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 2625-2624.

[5] S. Sharma, R. Kiros, and R. Salakhutdinov, "Action recognition using visual attention," arXiv preprint arXiv:1511.04119, 2015.

[6] Z. Wu, X. Wang, Y.-G. Jiang, H. Ye, and X. Xue, “Modeling spatial-temporal clues in a hybrid deep learning framework for video classification,” in Proceedings of the 23rd ACM international conference on Multimedia, 2015, pp. 461-470.

[7] D. Tran, L. Bourdev, R. Fergus, L. Torresani, and M. Paluri, "Learning spatiotemporal features with 3d convolutional networks," in Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 4489-4497.

[8] G. Varol, I. Laptev, and C. Schmid, "Long-term temporal convolutions for action recognition," IEEE transactions on pattern analysis and machine intelligence, vol. 40, no. 6, pp. 1510-1517, 2017.

[9] Z. Qiu, T. Yao, and T. Mei, "Learning spatio-temporal representation with pseudo-3d residual networks," in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 4489-4497.

[10] Y. Zhou, X. Sun, C. Luo, Z.-J. Zha, and W. Zeng, "Spatiotemporal fusion in 3d cnns: A probabilistic view," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020, pp. 1725-1732.

[11] J. Kim, S. Cha, D. Wee, S. Bae, and J. Kim, "Regularization on spatio-temporally smoothed feature for action recognition," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020, pp. 12103-12112.

[12] ] G. Bertasius, H. Wang, and L. Torresani, "Is space-time attention all you need for video understanding?," in ICML, vol. 2, no. 3, 2021.

[13] Q. Fan, C.-F. Chen, and R. Panda, "Can an image classifier suffice for action recognition?," in International Conference on Learning Representations, 2022.

[14] D. Neimark, O. Bar, M. Zohar, and D. Asselmann, "Video transformer network," in Proceedings of the IEEE International Conference on Computer Vision, 2021, pp. 3163-3172.

[15] Y. Du, W. Wang, and L. Wang, "Hierarchical recurrent neural network for skeleton based action recognition," in Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 1110-1118.

[16] A. Shahroudy, J. Liu, T.-T. Ng, and G. Wang, "Ntu rgb+d: A large scale dataset for 3d human activity analysis," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 1010-1019.

[17] Y. Hou, Z. Li, P. Wang, and W. Li, "Skeleton optical spectra-based action recognition using convolutional neural networks," IEEE Transactions on Circuits and Systems for Video Technology, vol. 28, no. 3, 2016.

[18] P. Wang, Z. Li, Y. Hou, and W. Li, "Action recognition based on joint trajectory maps using convolutional neural networks," in Proceedings of the 24th ACM international conference on Multimedia, 2016, pp. 102-106.

[19] L. Shi, Y. Zhang, J. Cheng, and H. Lu, "Skeleton-based action recognition with directed graph neural networks," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 7912-7921.

[20] S. Yan, Y. Xiong, and D. Lin, "Spatial temporal graph convolutional networks for skeleton-based action recognition," in Thirty-second AAAI conference on artificial intelligence, 2018.

[21] Y. Zhang, B. Wu, W. Li, L. Duan, and C. Gan, "Stst: Spatial-temporal specialized transformer for skeleton-based action recognition," in Proceedings of the 29th ACM international conference on Multimedia, 2021, pp. 3229-3237.

[22] Y. Wang, Y. Xiao, F. Xiong, W. Jiang, Z. Cao, J. T. Zhou, and J. Yuan, "3dv: 3d dynamic voxel for action recognition in depth video," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020, pp. 511-520.

[23] C. R. Qi, L. Yi, H. Su, and L. J. Guibas, "Pointnet++: Deep hierarchical feature learning on point sets in a metric space," in Advances in Neural Information Processing Systems, vol. 30, 2017.

[24] X. Liu, M. Yan, and J. Bohg, "Meteornet: Deep learning on dynamic 3d point cloud sequences," in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 9246-9255.

[25] J. Imran and P. Kumar, "Human action recognition using rgb-d sensor and deep convolutional neural networks," in 2016 international conference on advances in computing, communications and informatics (ICACCI), 2016, pp. 144-148.

[26] P. Wang, W. Li, J. Wan, P. Ogunbona, and X. Liu, "Cooperative training of deep aggregation networks for rgb-d action recognition," in Thirty-second AAAI conference on artificial intelligence, 2018.

[27] H. Wang, Z. Song, W. Li, and P. Wang, "A hybrid network for large-scale action recognition from rgb and depth modalities," Sensors, vol. 20, no. 11, 2020.

[28] R. Zhao, H. Ali, and P. Van der Smagt, "Two-stream rnn/cnn for action recognition in 3d videos," in 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2017, pp. 4260-4267.

[29] M. Zolfaghari, G. L. Oliveira, N. Sedaghat, and T. Brox, "Chained multi-stream networks exploiting pose, motion, and appearance for action classification and detection," in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 2904-2913.

[30] J. Liu, A. Shahroudy, D. Xu, A. C. Kot, and G. Wang, "Skeleton-based action recognition using spatio-temporal lstm network with trust gates," IEEE transactions on pattern analysis and machine intelligence, vol. 40, no. 12, pp. 3007-3021, 2017.

[31] H. Rahmani and M. Bennamoun, "Learning action recognition model from depth and skeleton videos," in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 5832-5841.

[32] S. S. Rani, G. A. Naidu, and V. U. Shree, "Kinematic joint descriptor and depth motion descriptor with convolutional neural networks for human action recognition," Materials Today, vol. 37, 3164-3173, 2021.

[33] A. Shahroudy, T.-T. Ng, Y. Gong, and G. Wang, "Deep multimodal feature analysis for action recognition in rgb+d videos," IEEE transactions on pattern analysis and machine intelligence, vol. 40, no. 5, pp. 1045-1058, 2017.

[34] J.-F. Hu, W.-S. Zheng, J. Pan, J. Lai, and J. Zhang, "Deep bilinear learning for rgb-d action recognition," in Proceedings of the European Conference on Computer Vision, 2018, pp. 5832-5841.

[35] P. Khaire, P. Kumar, and J. Imran, "Combining cnn streams of rgb-d and skeletal data for human activity recognition," Pattern Recognition Letters, vol. 115, pp. 107-116, 2018.

[36] S. Ardianto and H.-M. Hang, "Multi-view and multi-modal action recognition with learned fusion," in 2018 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), pp. 1601-1604, 2018.

[37] L. Wang, Y. Xiong, Z. Wang, Y. Qiao, D. Lin, X. Tang, and L. Van Gool, "Temporal segment networks: Towards good practices for deep action recognition," in Proceedings of the European Conference on Computer Vision, 2016, pp. 20-36.

[38] C. Wang, H. Yang, and C. Meinel, "Exploring multimodal video representation for action recognition,"in 2016 International Joint Conference on Neural Networks (IJCNN), pp. 1924-1931, 2016.

[39] E. Kazakos, A. Nagrani, A. Zisserman, and D. Damen, "Epic-fusion: Audiovisual temporal binding for egocentric action recognition," in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 5492-5501.

[40] R. Gao, T.-H. Oh, K. Grauman, and L. Torresani, "Listen to look: Action recognition by previewing audio," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020, pp. 10457-10467.

[41] N. Dawar and N. Kehtarnavaz, "A convolutional neural network-based sensor fusion system for monitoring transition movements in healthcare applications," in 2018 IEEE 14th International Conference on Control and Automation (ICCA), pp. 482-485, 2018.

[42] H. Wei, R. Jafari, and N. Kehtarnavaz, "Fusion of video and inertial sensing for deep learning–based human action recognition," Sensors, vol. 19, no. 17, 2019.

[43] A. Gorban, H. Idrees, Y.-G. Jiang, A. Roshan Zamir, I. Laptev, M. Shah, and R. Sukthankar, "THUMOS challenge: Action recognition with a large number of classes." http://www.thumos.info/, 2015.

[44] H. Akbari, L. Yuan, R. Qian, W.-H. Chuang, S.-F. Chang, Y. Cui, and B. Gong, "Vatt: Transformers for multimodal self-supervised learning from raw video, audio and text,"in Advances in Neural Information Processing Systems, vol. 27, 2014.

[45] N. C. Garcia, P. Morerio, and V. Murino, "Modality distillation with multiple stream networks for action recognition," in Proceedings of the European Conference on Computer Vision, 2018, pp. 5832-5841.

[46] N. C. Garcia, P. Morerio, and V. Murino, "Learning with privileged information via adversarial discriminative modality distillation," IEEE transactions on pattern analysis and machine intelligence, vol. 42, no. 10, pp. 2581-2593, 2019.

[47] N. C. Garcia, S. A. Bargal, V. Ablavsky, P. Morerio, V. Murino, and S. Sclaroff, "Dmcl: Distillation multiple choice learning for multimodal action recognition," arXiv preprint arXiv:1912.10982, 2019.

[48] B. Mahasseni and S. Todorovic, "Regularizing long short term memory with 3d human-skeleton sequences for action recognition," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 3054-3062.

[49] . Wang, C. Gao, L. Yang, Y. Zhao, W. Zuo, and D. Meng, "Pm-gans: Discriminative representation learning for action recognition using partial-modalities," in Proceedings of the European Conference on Computer Vision, 2018, pp. 384-401.

[50] Y. Liu, K. Wang, G. Li, and L. Lin, "Semantics-aware adaptive knowledge distillation for sensor-to-vision action recognition," IEEE Transactions on Image Processing, vol. 30, pp. 5573-5588, 2021.

[51] H. Alwassel, D. Mahajan, L. Torresani, B. Ghanem, and D. Tran, "Self supervised learning by cross-modal audio-video clustering," arXiv preprint arXiv:1911.12667, 2019.

[52] B. Korbar, D. Tran, and L. Torresani, "Cooperative learning of audio and video models from self-supervised synchronization," in Advances in Neural Information Processing Systems, vol. 31, 2018.

编辑：黄飞

阅读全文

RGB(57281) RGB(57281)
图像识别(37828) 图像识别(37828)
机器学习(130422) 机器学习(130422)
深度学习(119797) 深度学习(119797)
rnn(6792) rnn(6792)

计算机视觉：人脸识别综述与展望

　　摘　要　本文综述了人脸识别理论的研究现状，根据人脸自动识别威廉希尔官方网站发展的时间进行了分类，分析和比较各种识别方法优缺点，讨论了其中的关键威廉希尔官方网站及发展前景。

2012-05-04 11:51:34

4711

语音识别威廉希尔官方网站最新进展：视听融合的多模态交互成为主要演进方向

电子发烧友网报道（文/李弯弯）所谓“模态”，英文是modality，用通俗的话说，就是“感官”，多模态即将多种感官融合。多模态交互威廉希尔官方网站是近年来人工智能领域的一项重要创新。随着语音识别威廉希尔官方网站的发展，采用

2023-12-28 09:06:45

1301

人类与人工智能机器人合作的前景

，也会出现新的发展机遇，我们深信人类有能力解决好替代关系问题。　　首先，会出现大量新工作。当越来越多的重复性工作逐渐被机器淘汰掉，未来，擅长抽象思维、创造性任务、问题解决的人才将被大量需要，而且这些领域

2018-04-16 17:42:24

模态测试的基础知识

本模态测试应用指南（56 页）概述了结构动力学、采集频率响应数据的测量流程、参数估计（曲线拟合）、用于结构分析的分析方法及其与实验验证的关系......

2019-04-03 14:15:39

模态窗口的设置问题

Labview中，一个窗口如果设置为模态窗口，则打开后，点击其他窗口应该是没有作用的。我设置的几个子VI为模态窗口，效果都没有问题。但有一个子VI，设置为模态窗口，打开后，点击其他窗口的按钮，虽然

2013-11-28 21:56:55

CSI工作模态分析

CSI拓扑CSI开关状态CSI工作模态分析CSI与VSI的联系

2021-11-15 07:38:09

LMS Virtual Lab 流固模态分析

LMS Virtual Lab 流固模态分析的主要步骤：1、设置材料、属性、约束条件，进行结构有限元模态分析。注意：模态计算的频率范围不要太小，否则可能计算错误！2、对流体进行模态分析3、建立结构网格到流体网格的映射，再利用结构模态和流体模态进行流固耦合模态分析

2019-05-29 06:59:58

MPU6050和HMC5883L结合做动作识别有什么其他动作？

我现在要用MPU6050和HMC5883L结合，做动作识别，现在只能做到识别上下、左右、六个面及角度识别，请问各位大神有可以识别其他动作吗？谢谢！

2019-05-13 04:22:47

labview 模态分析

用labview进行模态分析，有很多问题，望高手指点一二力锤激励信号+加速度传感器信号，请问下，labview什么控件可以计算系统的模态还是说仅仅两路信号是分析不了模态的。

2016-06-24 11:50:49

【Longan Nano申请】手势控制云端互联全息投影机器人

用户实现更高级的人机交互——那就是手势识别。如果我能拿到此板，我会将它用于手部数据的采集以及分析。将它作为我们此次项目的首部2识别器的中间枢纽。人类与外界进行交互的过程中，手势动作是最重要的方式方法

2019-10-22 10:24:21

【OK210申请】基于嵌入式的人脸识别系统

ov9650采集视频，并将视频做人脸检测，如果检测到人脸则对人脸进行识别，识别的信息通过串口打印到终端上，在终端上显示姓名工号等，同时控制arm做相应的动作，如语音播报，存入数据库等动作

2015-07-08 16:59:53

【Z-turn Board试用体验】+ Z-Turn的人脸识别门禁系统项目开发(一）

发送到服务器上，然后服务器检测程序通过POST的方式解析到json数据，通过人脸识别库提供的相似度检测算法进行解算，然后还需要发回门禁控制门锁动作的控制系统，实时性就无法保证，我可不想开个门等待半天

2015-06-26 13:19:35

下一场革命性的人机交互方式会是什么？

但未成形的人机交互方式，但因其涉及的威廉希尔官方网站原理和威廉希尔官方网站点太过庞杂，目前语音交互的发展只能满足一般场景下的人机交互。虽然发展现状并不如我们所预想那般，但语音交互被喻为最接近人类自然交互方式，其发展空间还是

2018-05-22 11:17:39

什么是基于Zynq的人类生理模拟系统？

模拟了营养物质的流动，这个模拟系统的意图在于研究人类不同器官对于各种各样体外药物治疗的反应情况，并且这个项目受到了美国国防部高级研究计划局（DARPA）的大力资助，告诉大家，什么是基于Zynq的人类生理模拟系统？图1：MIT和Continuum设计推出的“片上人类生理模拟系统”

2019-08-01 07:24:17

关于LabWindows/CVI的模态与非模态窗口的问题，恳请大家帮帮忙

使用LabWindows/CVI建立多线程时，在子线程中用到了MessagePopup函数，本来MessagePopup函数的弹出窗口是模态窗口，但是程序运行时却是非模态窗口。我现在是必须得在子线程

2017-05-14 21:17:51

分享一个不错的基于Android的人脸识别门禁硬件方案

2022-03-07 07:29:02

基于LSM6DSOX的FSM状态机的腕部动作识别

本文档中的腕部动作识别是基于布局0实现的。腕部动作识别类型• FSM #1 – （左手）静止/坐着/走路等场景下的抬腕亮屏动作• FSM #2 – (右手)静止/坐着/走路等场景下的抬腕亮屏动作• FSM #3 – 跑步场景下的抬腕亮屏动作• FSM #4 – 水平向内移动手腕亮屏动作

2023-09-06 08:03:51

基于PCA LDA的人脸识别论文用Matlab仿真

谁有基于PCA LDA的人脸识别论文并且有Matlab仿真原程序，谢谢各位大牛了！！{:soso_e130:}

2012-04-20 14:22:53

基于PCA和2DPCA的人脸识别

求大神分享基于PCA与2DPCA的人脸识别的资料。帮我推荐一下学习PCA和2DPCA的书籍。谢谢。

2017-04-06 15:31:44

基于labview的人脸识别系统的设计………………

我现在做的是基于labview的人脸识别系统的设计与实现，现在已经开始在做，但是在算法这一块被卡到了，不知道改用什么样的算法和如何实现这个算法，可能是水平低了点把，请高人指点一下啊！！！谢谢…………

2012-03-17 09:56:32

基于matlab的人脸检测K-L的人脸识别（肤色分割和特征提取）

基于matlab的人脸检测K-L的人脸识别（肤色分割和特征提取）[hide] [/hide]《labview人脸识别》课程链接：http://url.elecfans.com/u/bc0e010da8

2012-02-22 16:45:03

基于嵌入式LInux的人脸识别系统

1，基于嵌入式LInux的人脸识别系统

2021-10-27 07:02:15

基于语音识别的人机交互方式浅析

0 引言传统的人机交互依靠复杂的键盘或按钮来实现，随着科技的发展，一些新型的人机交互方式也随之诞生，带给人们全新的体验。基于语音识别的人机交互方式是目前热门的威廉希尔官方网站之一。但是语音识别功能算法复杂、计算

2022-01-25 07:00:22

头部动作识别系统的硬件设计

功能，将模块分为头部动作识别单元和机械手部分。2头部运动测量单元设计头部运动识别单元采用三轴数字陀螺仪与三轴加速度传感器融合的策略。将采集到的信息经过数字滤波处理后，估算出头部的运动姿态，通过无线单元

2019-06-18 05:00:14

带你玩转OpenHarmony AI：基于Seetaface2的人脸识别

检测到的人脸信息，其中包含了人脸个数，人脸区域坐标以及人脸置信度得分数据。然后通过人脸信息检测返回的数据进行面部关键点定位。面部关键点定位实现：std::vector&lt

2022-12-21 10:42:03

怎么用树莓派做基于云服务平台的人脸识别

怎么用树莓派做基于云服务平台的人脸识别，大神求解，急！！

2015-08-07 23:17:43

怎么通过动作识别来进行正常控制的MP3？

动作识别是一个很热门的话题。苹果公司继推出具有轰动效应的多点触控威廉希尔官方网站后又筹备申请自己的动作识别专利。动作的识别简单的说就是利用加速度传感器，检测在空间上的速度变化，通过算法，提取动作。动作识别在很多

2019-10-11 08:31:08

机器能超越真正的人类吗？人工智能未来发展如何？

无关紧要　　您觉得AI这个概念是否被滥用了? 　　Michael Jordan：很多不同的东西都在用AI这个概念，经典的定义是认为，人工智能是尝试让计算机成为像我们这样的人类。我们还没有实现这个目标

2018-10-03 09:26:37

用PythonPi实现门禁系统-模式识别

模式识别听起来很高大上，其实就是特征识别。人类对事物的识别过程其实就是提取特征、根据特征对事物进行分类的过程，然后人类就可以将这类事物的特点与规律套用到这个事物上。我们在门禁课程中曾提出过一个双人

2017-01-15 22:34:37

百年科技发明史：改变人类生活的发明

道格拉斯-亚当斯所说的那样，人的年龄越长，就越不容易跟上科技进步的步伐。　　刚刚离我们而去的20世纪里，都有哪些人类的发明改变了我们的生活？20世纪头20年的人类发明　　20世纪前20年的人类发明：齐柏林硬式

2012-09-25 13:58:43

科技进步不思议：现电脑确已可检测人类情绪

西雅图的人工智能初创公司 SilverLogic Labs 开发了一种情感识别威廉希尔官方网站，可以通过分析和检测人类情感的方式来预测人们的反应或行为。该公司声称，这项威廉希尔官方网站能够比其他任何威廉希尔官方网站都能更准确地预测情感

2017-11-08 14:40:55

简单的模型进行流固耦合的模态分析

没有共用的结点编号，否则软件识别编号出错无法计算；　　由于结构和空气在界面的相互作用，导致质量和刚度阵中引入了对角线外的耦合项，对耦合系统进行模态分析时将出现复特征值，所以此时我们采用Nastran的复

2020-07-07 17:15:39

航空电子设备PCB组件的实验模态分析

阶振型（FEA）图4 PCB 组件第2 阶振型（FEA）图5 PCB 组件第3 阶振型（FEA）　　2 实验模态分析　　实验模态分析是若干工程学科的综合，它通过建立试验“装置”、估计频响函数、系统识别

2018-09-13 16:40:12

基于曲率模态振型的损伤识别方法研究

基于曲率模态振型的损伤识别方法研究　研究了适用于桥梁和连续梁结构的基于曲率模态振型的损伤识别方法。以一2D 框架结构有限元模型为数值算例,比较了使用不同振型、不同

2008-10-24 14:55:43

基于应变模态和贝叶斯方法的杆件损伤识别

基于应变模态和贝叶斯方法的杆件损伤识别　提出了一种基于空间杆系结构应变模态和贝叶斯统计方法的损伤识别方法。对于空间杆系结构,认为其杆件只承受轴向应力,因此,由节

2008-10-24 15:02:47

基于曲率模态振型的损伤识别方法研究

基于曲率模态振型的损伤识别方法研究:　研究了适用于桥梁和连续梁结构的基于曲率模态振型的损伤识别方法。以一2D 框架结构有限元模型为数值算例,比较了使用不同振型、不同损

2009-11-08 16:46:04

SVM与归一化方法结合的人脸和指纹融合识别

基于归一化的融合识别方法与基于分类器的融合识别方法是多模态生物特征识别中的两类基本匹配层融合识别方法。前者把来自不同的生物特征识别系统的匹配打分转化到可以比

2009-12-16 12:48:24

步态识别综述

简要回顾了步态识别威廉希尔官方网站的研究背景及发展历程, 重点对近年来步态识别方法的优缺点以及步态识别所涉及到的运动分割、特征提取与选择、模式识别方法进行了综述, 并对步态识

2010-08-30 16:37:21

欧姆龙开发出可识别手部动作的“手势识别威廉希尔官方网站 ”

欧姆龙宣布开发出了可识别手部动作的“手势识别威廉希尔官方网站 ”，可同时识别手部或手指的位置、形状及动作。据介绍，该威廉希尔官方网站可用于利用手势操作电视及个人电脑等用途。

2012-05-30 11:52:57

1890

基于自适应并行结构的多模态生物特征识别

传统多模态生物特征识别方法当出现生物特征缺失时，识别性能会明显下降。针对此问题，提出一种融合人脸、虹膜和掌纹的自适应并行结构多模态生物识别方法。该方法在设计融合策

2012-11-09 16:12:19

基于矩形骨架的人体动作识别钱锋

基于矩形骨架的人体动作识别_钱锋

2017-03-16 08:00:00

基于LLE和SVM的手部动作识别方法_伍吉瑶

2017-03-19 19:08:35

基于改进局部方向模式的人脸识别_孙君顶

2017-03-19 19:25:56

自适应并行结构的多模态生物特征识别

2017-10-16 11:06:04

虚拟训练软件及基于DSP和MEMS的人体动作识别系统的介绍

为解决现有虚拟训练软件的人体动作输入设备沉浸感和训练效果不足的问题，采用DSP和微机电系统（MEMS）构建人体动作识别系统。该系统应用MEMS器件为核心构建微惯性测量单元（MIMU）模块，模块

2017-11-13 09:05:10

基于改进信息增益建立视觉词典的人体动作识别

针对词袋（ BoW）模型方法基于信息增益的视觉词典建立方法未考虑词频对动作识别的影响，为提高动作识别准确率，提出了基于改进信息增益建立视觉词典的方法。首先，基于3D Harris提取人体动作视频时空

2017-11-29 09:55:53

卷积神经网络的振动信号模态参数识别

针对现有的时域模态参数识别方法大多存在难定阶和抗噪性差的问题，提出一种无监督学习的卷积神经网络（CNN）的振动信号模态识别方法。该算法在卷积神经网络的基础上进行改进。首先，将应用于二维图像处理的卷积

2017-12-05 14:39:13

多文化场景下的多模态情感识别

学习的特征，并通过多模态融合方法结合不同的模态。比较不同单模态特征和多模态特征融合的情感识别性能．我们在CHEAVD中文多模态情感数据集和AFEW英文多模态情感数据集进行实验，通过跨文化情感识别研究，我们验证了文化因素

2017-12-18 14:47:31

支持向量机集成的人类基因启动子识别

为高效地判别人类基因启动子，提出了一种基于单核苷酸统计和支持向量机集成的人类基因启动子识别算法。首先通过基因单核苷酸统计，从而将一个基因数据集分为C偏好和G偏好两个子集；然后分别对这两个子集提取

2018-01-02 17:23:30

多模态生物特征识别系统框架

针对多模态生物特征识别系统并行融合模式中使用方便性和使用效率方面的问题，在现有序列化多模态生物特征识别系统的基础上，提出了一种结合并行融合和序列化融合的多生物特征识别系统框架。框架中首先采用步态

2018-01-02 18:47:31

面向人体动作识别的随机增量型混合学习机模型

针对自然人机交互应用中的人体动作识别问题，总结了传统机器学习模型在识别人体动作时的缺点，然后在此基础上针对自然人机交互应用的独特要求提出了面向人体动作识别的随机增量型混合学习机模型．该模型将误差反向

2018-01-03 15:50:41

基于多视角自步学习的人体动作识别方法

自步学习的动作识别方法采用课程学习的思路，忽略了不同视角动作特征对课程的影响，对多分类的人体两维视频复杂动作识别无法取得满意效果。针对上述问题，提出一种多视角自步学习算法。选取5个视角并提

2018-03-29 17:02:43

基于视频深度学习的时空双流人物动作识别模型

相比，深度卷积神经网络（ Convolutional Neural Network．CNN）在动作识别领域的表现并不突出，原因有以下两点：第一，现今视频数据集较小并且噪声信息较多。视频中目标的移动以及视角的变化增加了动作识别的难度，所以需要比图片

2018-04-17 10:46:24

如何使用Kinect进行健身动作的识别与评价

，与标准动作进行比对评分，计算出易受伤程度。具体的，首先通过对骨架点的收集和预处理，从骨架点数据中提取特征值，计算权重并对特征值归一化，得到健身动作的动作测试数据集和模板数据集。通过KNN算法对测试数据进行分类与识别，

2018-12-21 15:42:40

康佳发布了全新的AI人脸识别电视主打数据精准分析与多模态识别系统

近日，康佳发布了全新的AI人脸识别电视，主打数据精准分析与多模态识别系统。相关产品可以结合人脸识别的个人ID以及性别、年龄等属性，可以为用户提供个性化的内容推送和更加便利的操控体验。

2019-01-02 10:14:54

1194

关于多模态机器学习综述论文

因此，当研究问题或数据集包括多个这样的模态时，其特征在于多模态。本文主要关注但不仅仅关注三种形式：自然语言既可以是书面的，也可以是口头的; 视觉信号，通常用图像或视频表示; 和声音信号，编码声音和口头信息，如韵律和声音表达。

2019-01-21 13:38:24

8435

IBM发布100万张多元化的人类脸部图像的数据合集

IBM近日发布了一套包括100万张多元化的人类脸部图像的数据合集，希望帮助开发者训练基于AI和神经网络的脸部识别系统，提高AI在脸部识别方面的多样性和准确性，战胜面对年龄、性别和种族肤色差异的人脸识别时存在的威廉希尔官方网站偏见问题。

2019-02-12 11:01:14

2702

MIT打造实时模仿人类动作的新型机械臂RoboRaise

预先给机器人特定的指令，它们现在已经能很好地执行相应的动作了。然而如果机器人能从人类的动作中获取线索，那么机器人和人类是否能够更加无缝地展开合作呢？

2019-05-24 15:55:18

2847

人工智能拥有人类情感之后会有什么变化

竹间智能专注于情感机器人的研发。情感智能，是指通过图像、文字以及语音的人机交互威廉希尔官方网站与竹间智能自主研发的“多模态情感识别模型”，研发出能够看懂、读懂、听懂、有记忆、自学习、真正理解人类语言和情感的人工智能。

2019-10-25 11:22:39

2177

基于随机动作指令的人脸活体检测为人脸识别保驾护航

人脸识别成了近年火热的人工智能落地方向之一。简单地看来，人脸识别是一个验证身份的过程，所以后跟个人身份证打通也是理所应当。要判断画面上呈现的是不是一个真的人脸，途径和手段是可以非常多样化的。要验证

2020-06-17 17:37:01

630

基于随机动作指令的人脸活体检测威廉希尔官方网站

随着大数据时代的到来，个人信息安全问题日益严峻，基于图像处理的人脸识别和检测威廉希尔官方网站得到了广泛的应用。然而，目前人脸检测威廉希尔官方网站都是针对数量较小的人脸图像，随着大数据概念的深入，图像大数据处理将对人脸识别

2020-06-17 17:38:33

707

多模态生物识别成趋势

多模态生物识别是指整合或融合两种及两种以上生物识别威廉希尔官方网站，利用其多重生物识别威廉希尔官方网站的独特优势，并结合数据融合威廉希尔官方网站，使得认证和识别过程更加精准、安全。

2020-03-11 14:26:40

3226

多模态生物识别系统的原理及局限性

随着威廉希尔官方网站的发展，使用生物识别威廉希尔官方网站实施安全个人识别协议的挑战正在增加，并且在世界上几乎每个市场中对于准确的人类识别的需求都比以往更高。生物识别管理市场的并行发展已经确定，用于识别目的的单个硬件模态的使用可能不再是许多行业的最明智的选择，那多模态生物识别系统有哪些优势？

2020-10-09 15:30:39

2580

生物识别系统安全吗?生物识别系统安全性分析

　生物识别威廉希尔官方网站是物理或行为的人类特征，可用于数字识别人员以授予对系统，设备或数据的访问权，那生物识别系统安全性怎么样？

2020-10-13 09:18:14

1604

一文解析多模态生物识别威廉希尔官方网站的安全性

多模态生物特征识别是指在识别系统中使用两种或更多种生物特征的组合，例如，结合人脸识别和虹膜识别的系统可以被认为是多模态生物识别系统，那多模态生物识别威廉希尔官方网站安全吗？

2020-10-13 09:45:56

770

多模态生物识别威廉希尔官方网站的原理

生物识别威廉希尔官方网站是指基于每个人独特的生物和行为特征的可以被采样和测量的识别威廉希尔官方网站。生物特征分为生理特征和行为特征。生理特征是指人体固有的人脸、虹膜、指纹、掌静脉、DNS等等。

2020-10-15 11:32:03

3166

人体康复动作识别算法Pose-ARMGRU

PoseAMGRU。采用 Open Pose姿态估计方法从视频帧中提取骨架关节点，经过姿态数据预处理后得到表达肢体运动的关键动作特征，并利用注意力机制构建融合三层时序特征的GRU网络实现人体康复动作分类。实验结果表明，该算法在KTH和康复动作数据集中的识别

2021-03-12 11:02:53

从三方面探究基于深度学习的人体动作识别可行性

识别领域的最新研究成果，并对三类方法的优缺点进行了定性的分析和比较。然后，从场景相关和时间相关两方面，全面归納了常用的动作视频数据集，并着重探讨了不同数据集的特点及用法。随后，介绍了动作识别任务中常见的预训练策略

2021-03-30 09:09:38

基于层次注意力机制的多模态围堵情感识别模型

识别模型。在音频模态中加人频率注意力机制学习频域上下文信息，利用多模态注意力机制将视频特征与音频特征进行融合，依据改进的损失函数对模态缺失问题进行优化，提高模型的鲁棒性以及情感识别的性能。在公开数据集上的实

2021-04-01 11:20:51

利用应变模态差识别弯管内部损伤的研究

为研究利用应变模态差识别弯管内部损伤的方法，以损伤前、后的应变模态差作为弯管损伤识别的损伤指标对其展开研究。首先，基于位移模态和应变模态的模态叠加特性和正交性推导了应变模态差公式;其次，利用有限元

2021-04-15 15:25:36

基于深度学习的特种车辆跨模态检索和识别方法

保证正在执行任务的特种车辆的道路优先通行权，是合理配置城市交通资源、实施和保证应急救援的前提。特种车辆的跨模态识别是实现智慧交通的重要核心威廉希尔官方网站，尤其是在智能车联网尚未成熟、未来长期存在无人驾驶和有人

2021-04-23 14:56:07

可提高跨模态行人重识别算法精度的特征学习框架

为了提升跨模态行人重识别算法的识别精度，提出了一种基于改进困难三元组损失的特征学习框架。首先，改进了传统困难三元组损失，使其转换为全局三元组损失。其次，基于跨模态行亼重识别中存在模态间变化及模态内变

2021-05-10 11:06:14

引入信道状态信息的人体复杂动作识别

现有人类行为识别方法识别精度低、成本高，所能识别的动作也相对简单。为此，通过引入信道状态信息（CSI）提出一种人体复杂动作识别方法，并以传统武术形意拳招式动作为背景进行验证。利用WiFi网卡采集

2021-05-12 17:14:00

基于视频帧间差分序列的动作识别模型

针对视频动作识别中数据处理效率不髙的冋题，建立一种基于视频帧间差分序列的动作识别模型。利用帧间差分检测视频帧中的运动区域，以该区域为中心进行相应的图像剪切和増强处理。整个识别模型采用双流架构，在数据

2021-05-19 17:07:09

基于人体骨架的行为识别方法综述

2021-06-04 14:21:24

深度学习中动作识别网络学习

动作识别网络深度学习在人体动作识别领域有两类主要的网络，一类是基于姿态评估，基于关键点实现的动作识别网络；另外一类是直接预测的动作识别网络。关于姿态评估相关的网络模型应用，我们在前面的文章中已经

2021-06-25 10:32:07

2423

全面解读CVPR2021-MMAct挑战赛跨模态动作识别双冠方案

中仅设的两个赛道——“跨模态裁剪动作识别”和“跨模态未裁剪动作时序定位”，并均以大比分领先取得第一。冠军方案解读竞赛要求参赛者提出跨模态视频动作识别/定位方法，以弥补使用 MMAct［1］数据集的纯视觉方法的缺点。此任务的目标是利用基于传感器的，例如穿戴式传感器数据作为

2021-06-25 10:53:36

2135

涡扇发动机风扇管道声模态识别测量综述

2021-07-02 15:46:22

模态分析定义以及模态假设理论

模态分析的经典定义为，将线性定常系统振动微分方程组中的物理坐标变换为模态坐标，使方程组解耦，成为一组以模态坐标及模态参数描述的独立方程，以便求出系统的模态参数。

2022-04-26 10:43:28

1667

多模态图像合成与编辑方法

本篇综述通过对现有的多模态图像合成与编辑方法的归纳总结，对该领域目前的挑战和未来方向进行了探讨和分析。

2022-08-23 09:12:19

978

动作识别控制器开源分享

电子发烧友网站提供《动作识别控制器开源分享.zip》资料免费下载

2022-10-24 10:18:10

保护动作报告及故障录波图的识别

2022-11-11 15:42:46

1020

CMU最新《多模态机器学习的基础和最新趋势》综述

开发具有智能能力的计算机智能体一直是人工智能的一个宏伟目标，如通过多模态经验和数据进行理解、推理和学习，就像我们人类使用多种感官模式感知世界的方式一样。

2022-12-07 14:43:03

748

一个真实闲聊多模态数据集TikTalk

随着大量预训练语言模型在文本对话任务中的出色表现，以及多模态的发展，在对话中引入多模态信息已经引起了大量学者的关注。

2023-02-09 09:31:26

1166

中文多模态对话数据集

随着大量预训练语言模型在文本对话任务中的出色表现，以及多模态的发展，在对话中引入多模态信息已经引起了大量学者的关注。目前已经提出了各种各样的多模态对话数据集，主要来自电影、电视剧、社交媒体平台等

2023-02-22 11:03:01

842

人体分割识别图像：让AI更智能的认识人类

可以帮助机器更好地理解人类的动作和意图。在虚拟现实中，人体分割威廉希尔官方网站可以为用户提供更真实的沉浸式体验。人体分割威廉希尔官方网站的核心是使用计算机视觉威廉希尔官方网站识别图像中的人体部分，并将其分割出来。这项威廉希尔官方网站需要解决很多挑战，如人

2023-04-19 18:02:11

1190

人脸识别数据集应用和研究

人脸识别数据集是指包含大量人脸图像和相应的文本描述的数据集。这些数据集可以用于训练和测试人脸识别模型，以识别图像中的人脸并将其与给定的人脸进行匹配。

2023-04-21 16:19:37

617

ImageBind：跨模态之王，将6种模态全部绑定！

最近，很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅限于用于训练的模态对。因此，视频 - 音频嵌入无法直接用于图像 - 文本任务，反之亦然。学习真正的联合嵌入面临的一个主要障碍是缺乏所有模态融合在一起的大量多模态数据。

2023-05-11 09:30:44

595

多模态数据定制服务：提升智能化应用的关键利器

在当今信息爆炸的时代，数据被认为是现代社会的石油，而多模态数据则是数据世界中的明珠。多模态数据是指结合了不同类型的信息，如文本、图像、视频和声音等，它的应用范围非常广泛。通过充分利用多模态数据，企业

2023-06-18 21:24:47

264

使用通用传感器API的人类活动识别

电子发烧友网站提供《使用通用传感器API的人类活动识别.zip》资料免费下载

2023-07-04 10:45:38

以四点法为例讲解模态识别方法

导读：模态分析是研究结构动力特性一种近代方法，是系统辨别方法在工程振动领域中的应用。模态是机械结构的固有振动特性，每一个模态具有特定的固有频率、阻尼比和模态振型。这些模态参数可以由计算或试验分析取得，这样一个计算或试验分析过程称为模态分析。

2023-08-24 11:42:15

1851

人工智能领域多模态的概念和应用场景

随着人工智能威廉希尔官方网站的不断发展，多模态成为了一个备受关注的研究方向。多模态威廉希尔官方网站旨在将不同类型的数据和信息进行融合，以实现更加准确、高效的人工智能应用。本文将详细介绍多模态的概念、研究内容和应用场景，并探讨人工智能领域多模态的未来发展趋势。

2023-12-15 14:28:44

2188

已全部加载完成

搜索历史

基于不同数据模态的人类动作识别综述

评论