深度解析多模态数据行为识别威廉希尔官方网站的研究发展

王帅琛，黄倩，张云飞，李兴，聂云清，雒国萃。 2022. 多模态数据的行为识别综述。中国图象图形学报， 27（11）： 3139-3159.

摘要：行为识别是当前计算机视觉方向中视频理解领域的重要研究课题。从视频中准确提取人体动作的特征并识别动作，能为医疗、安防等领域提供重要的信息，是一个十分具有前景的方向。本文从数据驱动的角度出发，全面介绍了行为识别威廉希尔官方网站的研究发展，对具有代表性的行为识别方法或模型进行了系统阐述。行为识别的数据分为RGB模态数据、深度模态数据、骨骼模态数据以及融合模态数据。首先介绍了行为识别的主要过程和人类行为识别领域不同数据模态的公开数据集；然后根据数据模态分类，回顾了RGB模态、深度模态和骨骼模态下基于传统手工特征和深度学习的行为识别方法，以及多模态融合分类下RGB模态与深度模态融合的方法和其他模态融合的方法。传统手工特征法包括基于时空体积和时空兴趣点的方法（RGB模态）、基于运动变化和外观的方法（深度模态）以及基于骨骼特征的方法（骨骼模态）等；深度学习方法主要涉及卷积网络、图卷积网络和混合网络，重点介绍了其改进点、特点以及模型的创新点。基于不同模态的数据集分类进行不同行为识别威廉希尔官方网站的对比分析。通过类别内部和类别之间两个角度对比分析后，得出不同模态的优缺点与适用场景、手工特征法与深度学习法的区别和融合多模态的优势。最后，总结了行为识别威廉希尔官方网站当前面临的问题和挑战，并基于数据模态的角度提出了未来可行的研究方向和研究重点。

00 引言

人体行为识别是计算机视觉、深度学习、视频处理和模式识别等学科交叉的研究课题，是当前计算机视觉的一个研究热点。行为识别是对包含人体动作行为的视频序列进行动作特征提取、特征表示和动作识别等操作的过程。由于视频采集传感器的成本降低和快速发展，使得行为识别有了广泛的应用前景，例如视频检索、人机交互、医学监测和自动驾驶等领域，都涉及行为识别的相关威廉希尔官方网站。行为识别属于视频理解的范畴，所以特征的提取和表示至关重要。这两个过程的好坏会直接影响最终的分类结果。特征可以通过手工制作和网络学习获取，图 1介绍了两种方法的基本过程。手工特征的方法利用图像和数学等知识，设计出一种表达动作的方式，通过表达动作的信息区分不同类别的动作。算法实现更简单，但是常常局限于某个数据集。深度学习网络自适应性更好，能够根据输入数据和设计的网络提取出侧重的特征，并能依靠反向传播等手段优化提取特征的过程，最终得到一个能高效提取动作特征和正确分类的网络模型。

从数据驱动的角度出发，可将行为识别方法分为基于RGB数据的方法、基于深度数据的方法、基于骨骼数据的方法和融合以上模态数据的方法，如图 2所示。每种数据的模态都有自身特性导致的优缺点，如RGB模态数据易采集但鲁棒性较差。因此提出了融合多模态的方法，以克服一些单模态存在的问题。本文相比较其他行为识别综述的贡献在于：1）本文的数据模态分类、方法分类和数据集分类一一对应，对初学者或者长期研究者都提供了一个结构清晰的介绍和对比；2）其他的行为识别综述通常注重单一模态下的论述，而本文更加全面地论述了多种数据模态和数据融合的行为识别；3）近年的行为识别综述只包含深度学习，缺少早期手工特征的方法，本文分析手工特征的思想优点和深度学习的优势，进而实现优势互补；4）讨论了不同数据模态的优劣性和动作识别的挑战以及未来研究方向。

01 行为识别数据集

在评价不同识别方法的性能时，数据集有非常重要的作用。目前有许多公开的行为数据集供研究人员使用。主流数据集的详细信息如表 1所示。

HMDB-51（human motion database）（Kuehne等，2011）中数字51代表类别数量。它是从各种互联网资源和数字化电影中收集形成，此数据集的动作主要是日常行为，如图 3所示。该数据集包含6 849个视频，分为51个动作类别，每种动作包含101个视频片段。该数据集的干扰因素主要是摄像机视角和运动的变化、背景杂乱、志愿者位置和外观的变化。

UCF101（Soomro等，2012）是由美国中佛罗里达大学计算机视觉研究中心发布的数据集，是UCF50数据集的扩展，收集自YouTube，提供了包含101个动作类别的13 320个视频样本数据。UCF101在动作方面提供了最大的多样性，在摄像机运动、对象的外观和姿态、对象规模、视点、杂乱的背景以及照明条件等方面有很大的变化。Kinetics（Carreira和Zisserman，2017）是一个大规模、高质量的YouTube视频数据集，其中包括各种各样的以人为中心的动作。该数据集由大约300 000个视频片段组成，涵盖400种动作类别，每个动作至少有400个视频片段。每个片段持续大约10 s，并标记为一个动作类别。所有片段都经过多轮人工标注，都是从一个独特的YouTube视频中获得。这些动作涵盖了广泛的动作类别，包括人与物的交互，如演奏乐器；以及人与人的交互，如握手和拥抱。发布者先后在2016年、2017年、2018年相继发布了Kinetics-400、Kinetics-600（Carreira等，2018）和Kinetics-700（Carreira等，2019）系列，代表视频中的动作可分为400、600、700个类别。Something-Something数据集（Goyal等，2017）是一个中等规模的数据集，它与一般数据集的最大区别在于，其内容定义的是原子动作，并且该数据集特别注重时序上的关系。第1版本和第2版本数据集由108 499个和220 847个视频组成，均可分为174个动作类别。MSR-Action3D（Li等，2010）是微软研究院利用Kinect深度相机捕获的动作数据集。它包含20种与人类运动相关的活动，如慢跑、高尔夫挥杆等。图 4为其中3个动作的深度图实例。这个数据集中的每个动作由10个人执行2~3次，总共包含567个样本。因为动作的高度相似性，该数据集具有一定的挑战性。

MSR-Daily Activity（Wang等，2012）是微软研究院（MSR）利用Kinect相机拍摄日常活动采集而成的数据集，共有16种动作类别，320个活动样本。其中，骨骼跟踪器提取的3维关节位置信息非常嘈杂，大部分活动都涉及人与物的交互。因此，动作的识别难度较大。UTD-MHAD（Chen等，2015a）数据集是美国得克萨斯大学达拉斯分校（The University of Texas at Dallas，UTD）发布的多模态人体行为识别数据集（MHAD），由8个表演者执行27个类别的动作组成。每个表演者重复动作4次，总共包括861个视频序列。该数据集包含RGB模态、深度模态、骨架模态和惯性传感器信号。NTU RGB+D（Shahroudy等，2016a）数据集由新加坡南洋理工大学创建，包含RGB模态和深度模态。它是迄今为止最大的动作数据集，包含56 880个样本数据和超过400万帧的视频。该数据集一共有60个动作类别，基于3台摄像机，在3个不同的视角，拍摄表演者的动作过程。这个数据集对于不同的视频序列具有可变的序列长度，并且表现出很高的类内变化。该数据集包含了RGB模态、深度模态和骨骼模态。骨骼模态的数据集包含了25个关节记录信息，图 5为人体的25个关节示意图。NTU RGB+D 120（Liu等，2020a）是NTU RGB+D数据集的扩展，添加了另外60个类别动作和57 600个视频样本，与之前的工作叠加形成120个动作类别和114 480个样本的大型数据集。

02 基于RGB数据的行为识别方法

RGB数据的优点在于成本低、易获取，缺点在于对外观的变化（如光线变化）缺少鲁棒性。当识别目标与背景具有相似颜色和纹理时，仅用RGB数据很难处理这个问题，这些局限妨碍了基于RGB数据的行为识别威廉希尔官方网站在复杂环境中的应用。基于RGB的行为特征的生成方式可分为手工制作和机器学习。

2.1 基于手工特征的方法

手工制作的目的是得到人体行为动作的运动和时空变化，包括基于时空体积的动作表示法、基于时空兴趣点的方法和基于骨骼关节轨迹的方法。基于时空体积的动作表示法利用3维的时空模板进行动作识别，关键在于匹配模板的构造和编码运动信息。Bobick和Davis（2001）提出了MEI（motion-energy images）和MHI（motion-history images）分别表示动作发生的空间位置和动作发生的时间过程，如图 6所示，MEI提取空间特征，MHI提取时间特征。在前期阶段，运动历史图和运动能量图十分相似，但在后期阶段两者有较大的区别。Klaser等人（2008）在2D HOG（histogram of oriented gradient）的基础上，拓展出3D HOG特征来描述人体行为，提高了识别准确率。上述文献的创新在于特征的表示，新颖的特征表示思想十分具有参考价值。但背景的噪声和遮挡会使特征提取十分困难，并且忽略了一些局部特征，对近似动作识别具有局限性。

基于时空兴趣点的方法较时空体积法对背景的要求降低，它通过提取运动变化明显的关键区域来表示动作，重点在于关键兴趣点的检测方法、描述的特征和分类方法。最常见的方法是基于3D-Harris时空特征点来检测关键区域。Chakraborty等人（2012）提出了一种改进后的3D-Harris方法，将局部特征检测威廉希尔官方网站从图像扩展到3维时空域，然后计算特征描述子，并利用描述行为的视觉词袋模型来构建视觉单词词汇表，用于加强对行为的描述。Nguyen等人（2015）提出了一种基于时空注意机制的关键区域提取方法，将密集采样与视频显著信息驱动的时空特征池相结合，构造视觉词典和动作特征。密集采样能更好地表示动作，但是增加了算法的复杂度，因此平衡采样密集度和算法复杂度的关系是时空兴趣点方法的重点之一。上述方法易受遮挡和相机视角变化的干扰，所以提出了基于骨骼和关节轨迹的动作表示方法，用于分析人体的局部运动信息。该方法从RGB图像中提取骨骼关键点或者跟踪人体骨骼运动的轨迹，根据关键点和轨迹判断动作的类别。该方法的关键在于使用何种算法和模型从RGB图像中提取关键点或者轨迹。Gaidon等人（2014）基于分裂聚类法表示局部运动轨迹，计算轨迹特征并用聚类结果表示不同运动类别。Wang和Schmid（2013）借鉴兴趣点密集采样的思想，通过采集密集点云和光流法跟踪特征点，获取密集轨迹（iDT），然后计算位移信息进行识别。RGB模态的骨骼和关节轨迹方法仍然存在背景和遮挡的干扰。但是识别动作的准确性提高，促使之后的科研人员依靠传感器采集骨骼模态形成数据集，从骨骼模态的角度研究行为识别。

2.2 基于深度学习的方法

深度学习的崛起逐渐影响了行为识别领域。基于深度学习网络提取的高层次特征，信息量丰富、有区分性，优于传统手工特征，应用于行为识别领域取得了重大的突破。在2D-CNN的基础上，Carreira和Zisserman（2017）提出了一种I3D模型，将卷积从2维扩展到3维，并提出了双流3D卷积网络用于动作识别，双流网络也成为后人模仿借鉴的经典方法。图 7为I3D中改进后的Inception模块，其中大小为1的3D卷积作用为减少参数量，尺寸都为3的最大池化和3D卷积提取不同尺度的特征，同时残差连接输入与输出，保持模型的稳定性。同时Carreira和Zisserman（2017）提出了Kinetics数据集，将许多经典算法在此数据集上进行实验对比，分析各算法的优缺点。Zhu等人（2018）提出了一种名为隐式双流神经网络结构的CNN体系结构，将原始视频帧作为输入并直接预测动作类别，通过隐式捕获相邻帧之间的运动信息，使用端到端的方法解决了需要计算光流的问题。研究者通过改进卷积网络的模块和深度，行为识别的准确率大幅提升。虽然加深网络能更有效地提取特征，但网络也会变得臃肿和训练缓慢。为了保证时空流之间的可分辨性和探索互补信息，Zhang等人（2019）提出了一种新颖的协同跨流网络，该网络调查多种不同模式中的联合信息，通过端到端的学习方式提取共同空间和时间流的网络特征，探索出不同流特征之间的相关性，从中提取不同模态的互补信息。神经网络方便了特征提取的方法，但不能拘泥于网络深度等方面，更应该从多个角度（帧选择和跨流网络的想法）优化识别过程。为了解决光流的计算复杂度问题，Kwon等人（2020）用运动特征的内部信息和轻量级学习代替对光流的繁重计算，提出了一种名为MotionSqueeze的可训练神经模块，用于有效的运动特征提取。该模块即插即用，能插入任何神经网络的中间来学习帧间关系，并将其转换为运动特征，然后送到下一个网络层进行更好的预测。

学者的创新曾经局限在提取特征的威廉希尔官方网站，Gowda等人（2020）从帧选择的角度出发，保留行为特征在时间序列上区别明显的“好”帧，剔除特征类似和无法分类的帧，提出一种名为SMART的智能帧选择网络，如图 8所示，综合考虑单个帧和多个帧的质量，而不是一次仅考虑一个帧。在降低计算量的同时，提高了识别准确率。Qiu等人（2019）注意到视频是具有复杂时间变化的信息密集型媒体，而神经网络中的卷积滤波器都是局部操作，忽略了视频帧之间的相关性，提出了一种新的基于局部和全局扩散的时空表示学习框架，并行学习局部和全局表示。每个块建模这两种表示方式，并且两者之间交换信息来更新局部和全局特征，多个块组成此网络结构，有效地保持了信息的局部性和整体性，获得了强大的特征学习方式。这些行为识别威廉希尔官方网站的革新都是在其他研究的基础上，保留优点，减弱负面影响或者解决存在的问题，最终实现行为识别威廉希尔官方网站的突破。

03 基于深度数据的行为识别方法

RGB数据受干扰性较大，促使了深度数据的产生。深度图中的纹理和颜色信息少，将图像采集器到场景中各点的距离（深度）作为像素值，对光照的鲁棒性强。深度传感器的产生极大地扩展了计算机系统感知3D视觉世界和获取视觉信息的能力。深度数据的信息与RGB数据本质上不同，它对场景的距离信息进行编码，而不是对颜色强度进行编码。因此，深度数据可以更简单精确地获取关键区域。但深度信息也不是一直具有鲁棒性，遮挡物和闪烁噪声可能会对行为识别造成误差。

3.1 基于运动变化和外观信息的方法

基于深度数据的行为识别方法主要利用人体深度图中的运动变化来描述动作。动作的特征由深度变化的外观或运动信息进行描述。Yang等人（2012）通过深度运动图（DMM）来投影和压缩时空深度结构，再从正面，侧面和俯视图形成3个运动历史图。然后，利用HOG特征表示这些运动历史图，并将生成的HOG特征串联起来以描述动作。除了计算运动变化来描述动作的方法外，另一种流行的方法是通过外观信息来描述动作。Yang等人（2012）基于深度序列构造一个超向量特征来表示动作，通过连接来自深度视频的局部相邻超曲面法线来扩展HON4D，联合局部形状和运动信息，引入了一种自适应时空金字塔，将深度视频细分为一组时空单元，以获得更具鉴别力的特征。为了剔除噪声影响，Xia和Aggarwal（2013）提出了一种新的深度长方体相似性特征，用来描述具有自适应支撑尺寸的3维深度长方体，从而获得更可靠的时空兴趣点。Chen和Guo（2015）通过分析前、侧和上方向的时空结构，提取时空兴趣点的运动轨迹形状和边界直方图特征，以及每个视图中的密集样本点和关节点来描述动作。深度模态较RGB模态多了深度这一信息，因此如何充分利用深度相关信息，如大小、变化等，是基于深度模态的行为识别的关键。这一思想不但适用于手工特征法，也适用于深度学习法。

3.2 基于深度学习的方法

深度模态下基于深度学习的方法可分为两类：一类是深度特征图和卷积神经网络的结合；另一类是提取深度信息的点集与点云网络的结合。为了充分利用深度序列中的空间、时间和结构信息进行不同时间尺度的动作识别，Wang等人（2018a）提出了3种简单、紧凑而有效的深度序列表示方法，分别称为动态深度图像（DDI）、动态深度法线图像（DDNI）和动态深度运动法线图像（DDMNI），用于孤立和连续动作识别。其中，DDI记录了随时间变化的动态姿势，DDNI和DDMNI记录了深度图捕获的3维结构信息。然后将3种特征图输入神经网络，提取不同的特征。Trelinski和Kwolek（2019）提出了一种基于深度图序列的动作识别算法。首先，在单个深度图中提取描述人形的特征，然后，对每个类单独训练提取单个类的特征，同时对每个深度图中代表人形的像素计算手工的特征。最后，所有动作共用的手工特征和特定动作的特征连接在一起，形成动作特征向量。深度图和点云可以相互转换，并且点云的表示简单，有非常统一的结构，避免组合的不规则性和复杂性。因此，Wang等人（2020）提出了3维动态像素（3DV）作为新颖的3维运动表示。通过时间顺序池化将深度视频中的3维运动信息压缩成规则的3DV像素点集，每个可用的3DV像素本质上涉及3维空间和运动功能，然后将3DV抽象为一个点集。由于3维点集的不规则，常规的卷积神经网络不适合处理不规则的信息形状，将点集输入点云网络（PointNet++），保持了点集的置换不变形。如图 9所示，动作流提取3D像素表示的人体动作特征，外观流提取人体的外观特征，结合两个特征的信息进行行为识别。Wang等人（2015）将卷积网络与深度图结合起来，通过卷积网络来学习深度图像序列的动作特征。利用分层深度运动映射（HDMMs）来提取人体的形状和运动信息，然后在HDMMs上训练一个卷积神经网络进行人体动作识别。在此基础上，Liu和Xu（2021）设计一个端到端的几何运动网络（GeometryMotion-Net），分别利用点云网络提取运动特征和几何特征，而3DV PointNet不能进行端到端的训练。3DV PointNet并没有充分考虑时间信息，而GeometryMotion-Net将每个点云序列表示为一个虚拟整体几何点云和多个虚拟运动点云来明确时间信息。两项改进措施使得识别准确率有了较大提升。

04 基于骨骼数据的行为识别方法

该方法通过骨骼关节实时对3D人体关节位置进行编码，实现人体行为的动作识别。由于人体骨骼的运动可以区分许多动作，利用骨骼数据进行动作识别是一个有前景的方向。骨骼数据包含的时空信息丰富，关节节点与其相邻节点之间存在着很强的相关性，使得骨架数据不但能在同一帧中发现丰富的人体结构信息，帧与帧之间也存在着强相关性。同时考虑骨骼和帧序列、时域和空域之间的共现关系能准确地描述动作。

4.1 基于骨骼特征提取的方法

对现有的基于骨骼数据的特征提取方法进行分析，根据其所对应的识别位置可分为基于关节和基于身体部位的行为识别方法。Vemulapalli等人（2014）提出了一种新的骨骼表示法，利用3维空间中的旋转和平移来interwetten与威廉的赔率体系身体各个部位之间的3维几何关系。人体骨骼作为李群中的一点，人的行为可以被建模为这个李群中的曲线，将李群中的动作曲线映射到它的李代数上，形成一个向量空间。然后结合线性支持向量机进行分类。Koniusz等人（2016）使用张量表示来捕捉3维人体关节之间的高阶关系，用于动作识别，该方法采用两种不同的核，称为序列相容核和动态相容核。前者捕捉关节的时空相容性，后者则模拟序列的动作动力学。然后在这些核的线性化特征映射上训练支持向量机进行动作分类。

4.2 基于深度学习的方法

Liu等人（2016）通过对骨架序列进行树结构的遍历，获得了空间域的隐藏关系。其他方法进行关节遍历只是把骨架作为一条链，忽略了相邻关节之间存在的依赖关系，而此遍历方法不会增加虚假连接。同时使用带信任门的长短期记忆网络（LSTM）对输入进行判别，通过潜在的空间信息来更新存储单元。Caetano等人（2019）提出了一种基于运动信息的新表示，称为SkeleMotion。它通过计算骨骼关节的大小和方向值来编码形成每行的动作信息和每列的描述时间信息，形成调整后的骨骼图像。然而，人类3维骨骼数据是一个拓扑图，而不是基于RNN或CNN的方法处理的序列向量或伪图像，而图卷积网络（GCN）具有天生处理图结构的优势，使得它在基于骨骼的行为识别威廉希尔官方网站取得了重大突破。基于图卷积的行为识别威廉希尔官方网站关键在于骨骼的表示，即如何将原始数据组织成拓扑图。Yan等人（2018）首先提出了一种新的基于骨架的动作识别模型，即时空图卷积网络（ST-GCN），该网络首先将人的关节作为时空图的顶点，将人体物理关节连接和时间作为图的边；然后使用ST-GCN网络进行信息的传递汇集，获取高级的特征图，并用Softmax分类器划分为对应的类别。在此基础上，Li等人（2019）提出的AS-GCN不仅可以识别人的动作，而且可以利用多任务学习策略输出对物体下一个可能姿势的预测。

构造的拓扑图通过动作连接和结构连接的两个模块来捕捉关节之间更丰富的相关性。Shi等人（2020）提出了一种新的多流注意增强自适应图卷积神经网络来进行基于骨架的动作识别。模型中的图拓扑可以基于输入数据以端到端的方式统一或单独地学习。这种数据驱动的方法增加了图形构造模型的灵活性，使其更具有通用性，以适应各种数据样本。同时关节差值和帧间差值的数据构造多流网络，在决策阶段融合，实现识别率的进一步提升。Obinata和Yamamoto （2021）从另一角度注意到帧间的拓扑图，不仅仅在帧间同一关节对应的顶点之间进行连接，在帧间多个相邻顶点之间添加连接，并提取额外的特征，实现识别率的提高。改进拓扑图后的识别效果理想，使得后续的许多研究都着重于这一点，如设计动态可训练拓扑图（Ye等，2020）、各通道独享的拓扑图（Cheng等，2020a）以及结合全局和局部的拓扑图（Chen等，2021a）。如图 10所示，空间图卷积过程是离重心（3号下方的最小点）近的3号近心点和离重心远的6号和7号远心点通过骨骼连接向5号根节点传递信息，如此反复，获得提取空间特征；时间卷积是将同一关节在时间维度上进行信息汇集，即同一关节的部分帧序列进行信息汇集，得到时间特征。骨架序列的时空图表示是图卷积网络（GCN）的扩展，专门用于执行人类行为识别。首先，通过在人体骨架的相邻身体关节之间以及沿时间方向插入边来构造时空图。然后，应用GCN和分类器来推断图中的依赖关系并进行分类。

图卷积作为基于骨骼数据的行为识别的热点研究之一，其数据形式——拓扑图十分契合人体骨骼图，特征和信息的获取与传递在物理结构和语义层面都符合图结构，因此取得了较为理想的效果。但图结构也成为行为识别的限制，如坐标的分布会影响图卷积的鲁棒性，缺失一些重要的关节点会降低识别的效果。另外，图卷积将每个关节点视为图中的一个点，其复杂性和人数成正比，而现实中的许多动作涉及多人以及相关物体。成倍增加的计算消耗量使得图卷积难以在多人动作的任务上实现较好的应用。

05 基于数据融合的行为识别方法

RGB数据、深度数据和骨骼数据具有各自的优点。RGB数据的优点是外观信息丰富，深度数据的优点是不易受光照影响，骨骼数据的优点是通过关节能更准确地描述动作。所以，选择哪种模态进行行为识别也是研究人员权衡的方面之一。根据汇集的文献资料，本文总结了各类模态的特点和适用场景，如表 2所示。

由于单模态始终存在一些问题，研究者尝试使用多种方式进行特征融合，克服这些问题。

融合方式有3种：特征层融合、决策层融合和混合融合。不同的方式融合结果具有各自的优点，弥补缺点，得到对运动的动作有更好的描述。

5.1 基于RGB模态与深度模态的融合方法

根据模态产生的时间顺序，RGB模态与深度模态的融合是最先提出也是最为普遍的组合方式。Jalal等人（2017）从连续的深度图序列中分割人体深度轮廓，并提取4个骨骼关节特征和一个体形特征形成时空多融合特征，利用多融合特征的编码向量进行模型训练。Yu等人（2020）使用卷积神经网络分别训练多模态数据，并在适当位置进行RGB和深度特征的实时融合，通过局部混合的合成获得更具代表性的特征序列，提高了相似行为的识别性能。同时引入了一种改进的注意机制，实时分配不同的权值来分别关注每一帧。Ren等人（2021）设计了一个分段协作的卷积网络SC-ConvNets）来学习RGB-D模式的互补特征，整个网络框架如图 11所示。首先将整个RGB和深度数据序列压缩成动态图像分别输入双流卷积网络中，再计算距离的平方值获得融合的特征。与先前基于卷积网络的多通道特征学习方法不同，这个分段协作的网络能够联合学习，通过优化单个损失函数，缩小了RGB和深度模态之间的差异，进而提高了识别性能。

深度模态没有RGB模态的纹理和颜色信息，RGB模态比深度模态在空间上少一个深度信息的维度，因此两者的数据模态可以很好地互补对方缺失的特征信息。大量研究结果表明了此种融合方法的合理性和优越性。因此提取另一个模态缺少的信息，避免相同信息的冗余，是模态融合的重点和难点。

5.2 其他模态的融合方法

其他模态的关系，如骨骼模态与深度模态互补关系，稍弱于RGB和深度模态的互补关系。但不同模态仍有互补信息的存在，所以不同模态融合也是研究人员的研究方向之一。Elmadany等人（2018）使用规范相关分析（CCA）来最大化从不同传感器提取的特征的相关性。此论文研究的特征包括从骨架数据中提取的角度数据、从深度视频中提取的深度运动图和从RGB视频提取的光流数据，通过学习这些特征共享的子空间，再使用平均池化来获取最终的特征描述符。Rahmani等人（2014）提出一种称为深度梯度直方图的描述子，结合深度图像和3维关节位置提取的4种局部特征来处理局部遮挡，分别计算深度、深度导数和关节位置差的直方图，将每个关节运动量的变化并入全局特征向量中，形成时空特征，并使用两个随机决策森林，一个用于特征修剪，另一个用于分类，提高识别的精度。特征可以在初级阶段融合，也可以在高级阶段形成语义信息的时期融合。前者相当于对数据进行补充增广，后者形成新的语义信息。融合也可以发生在决策阶段，联合不同模态的预测结果后得到一个综合的预测结果。一般而言，越早期的模态融合需要的计算量越小，越后期的模态融合复杂度越大。研究者常常使用混合折中的方法，保持两者优势的同时，也克服了一些缺点。融合的具体方式及其优缺点如表 3所示。对于神经网络，不同模态的融合可以在特征提取阶段，可以将多流网络的输出汇集到单个网络中实现特征融合。融合的关键在于数据模态的选择和融合的时间。研究者需要思考一种模态融入另一种模态后的特征是否克服了原有模态的缺点，否则融合操作只会增加计算量。

06 行为识别方法对比

对不同数据模态下的行为识别方法进行比较，通过表格和柱状图等方式的对比，以期得出一些行为识别威廉希尔官方网站的结论。Top-1代表概率最大的结果是正确答案的准确率，Top-5代表概率排名前5的结果是正确答案的准确率。交叉主题（cross subject）和交叉视角（cross view）是NTU RGB+D 60数据集中训练集和测试集的划分。交叉主题将40个志愿者划分为训练和测试两个队伍。每个队伍包含20个志愿者，其中1，2，4，5，8，9，13，14，15，16，17，18，19，25，27，28，31，34，35，38为训练集，其余为测试集。交叉视角将3个视角的相机中，相机2号和3号作为训练集，相机1号为测试集。NTU RGB+D 120中的训练集和测试集划分方式包括交叉主题（cross subject）和交叉设置（cross setup）两种。交叉主题表示训练集包含53个主题，测试集包含另外53个主题。交叉设置表示训练集样本来自偶数编号，测试集样本来自奇数编号。6.1 RGB模态的方法对比

RGB模态数据集选取了经典的UCF101数据集和HMDB-51数据集，以及新颖的Something-Something数据集，对比了经典方法和新发表的效果最佳的方法，如表4和表5所示。

对于HMDB-51数据集，手工特征方法的准确率最高仅有61.7%，而深度学习方法的最低准确率是55.2%。基于深度学习的方法将该数据集的最高准确率提高到85.1%。对于UCF101数据集，手工特征方法的最高准确率88.3%，基于深度学习的方法将准确率提高到98.7%，已经基本符合应用的要求。在Something-Something数据集上，手工特征法鲜有研究，大都是基于深度学习方法的开展。原因是该数据集规模较大，手工制作的特征已经无法准确地描述动作。而且动作类别多，使得Top-1的最高识别率仅有69%，是RGB模态的行为识别方向下一个需要攻克的数据集。根据大量文献和实验的依据，本文总结了两类方法的优缺点如表 6所示。

本文将统计的数据绘制成柱状图，从图12中能明显观察出，基于手工特征的方法（灰色表示的柱状）基本低于深度学习方法的识别率（灰色以外的其他颜色），说明深度学习的方法一般具有更好的识别性能。类似的情况也发生在其他模态中。

6.2 深度模态的方法对比深度模态数据集选取了经典的MSR-Action3D数据集与当前主流的NTU RGB+D深度数据集，和RGB模态的实验思路相同，比较了经典算法和最新卓越方法，结果如表 7和表 8所示。

当前的多数方法已经在MSR-Action3D深度数据集上达到了90%的准确率，说明该数据集的大部分价值已被挖掘，但MSR-Action3D仍然是评价一个算法好坏的经典数据集之一。近期主流的数据集是NTU RGB+D数据集中的深度模态部分，深度数据模态的人体行为数据集相较其他两个模态发布较少，在这方面还有很大的进步空间。在NTU RGB+D数据集的深度模态部分，手工特征的方法在这个大型数据集上效果较差。原因与RGB模态的情况相似，该数据集规模大、样本多、类别多，手工制作的特征能表示部分动作信息，但难以覆盖整个数据集的动作范围。两个新发布的网络的变体：点云网络（PointNet++）和Transformer网络，在NTU RGB+D深度模态部分的识别率达到了近90%和90.2%的高度。研究者可以从不同的角度改进这两个网络，可能会达到新的性能高度。这也给了研究者另一种想法，通过移植或者改进领域外的新颖网络，适配到行为识别方向中，或许能取得意想不到的效果。

6.3 骨骼模态的方法对比

骨骼模态是近年越发流行的模态，本文选取了主流的NTU RGB+D skeleton骨骼数据集，对比了许多算法的差异。在NTU RGB+D 60和120数据集的实验设置下，手工特征和深度学习的方法对比如表 9和表 10所示。深度学习的方法全面超越了手工特征方法。从中可发现，基于深度学习的方法几乎占据了全部范围。其中，早期研究者多使用标准卷积网络将骨骼数据编码成像素排列的伪图像，借鉴图像分类和视频分类的思想提取特征。这种方式取得的效果并不理想，因为它割裂了骨骼内在的连接性。之后，提出了卷积网络的变体——图卷积。由于图的结构十分符合人体骨骼连接，取得了理想的效果，也促进了图卷积在行为识别领域中快速发展。本文发现，初期研究者往往仅考虑识别率的高低，忽略了算法和模型的复杂度。

统计在骨骼模态上相关模型的训练参数量后如表 11所示。以ST-GCN为基础，科研人员通过加深模型层次和改进模型结构，设计出AS-GCN、2S-GCN等优秀模型。虽然提高了识别性能，但是模型越来越庞大，识别率也达到了瓶颈。意识到这一问题后，研究人员开始设计更轻量的网络，如MS-G3D、Dynamic GCN、CTR-GCN等。在达到相同识别效果的同时，设计了复杂度更小、训练速度更快的网络。从模型优化的角度进一步发展了行为识别威廉希尔官方网站。

图卷积的应用将NTU RGB+D 60骨骼数据库的交叉识别率从50%快速提升至88%。经过科研人员的不断努力研究，目前交叉主题和交叉视角的最高识别率已经达到94.1%和97.1%。在NTU RGB+D 60数据集上已经基本完成行为识别的任务。在NTU RGB+D 120数据集，动作类别数更多，更加有挑战性和难度。目前的最高识别率只有90%左右。所以，NTU RGB+D 120数据集是目前最全面和权威评价一个算法和模型好坏的数据集。希望相关人员能首先考虑以该数据集作为基准，通过数据驱动行为识别的进一步发展。本文发现，越高的识别率增长的幅度越小。这也从侧面反映了图卷积在行为识别领域达到了一定的瓶颈期。从本文数据模态的角度出发，有以下两点建议：1）融合其他模态的数据，补充骨骼数据的信息，进而获得更好的结果。2）使用一种新的方式代替拓扑图表示骨骼的信息，便于提取更多的动作特征。

6.4 多模态融合的方法对比

NTU RGB+D包括了RGB、深度和骨骼模态，选择该数据集作为基准对比不同的算法，结果如表 12所示。

选取其中的两个方法Pose-drive Attention和Deep Bilinear作为代表，比较其在不同模态下的识别率。从表 13中可以清楚地观察到，对于Pose-drive Attention模型，RGB和骨骼模态融合的识别率明显高于RGB或者骨骼单个模态的识别率。对于Deep Bilinear模型，3个模态融合后的识别率高于两个模态融合的识别率。因此，融合多个模态的方法十分有利于行为识别的效果提升。

最常用的组合是RGB模态和深度模态，原因是由于深度模态比RGB模态多了深度信息，而RGB模态比深度模态多了颜色纹理信息，两者能较好地互补信息，从而提取到描述更好的特征，达到提高识别率的效果。其次是骨骼和其他模态的组合，由于骨骼数据在早期较难与其他模态融合，研究者一般都选择在高维特征阶段进行融合，实现信息的互补。最后，本文从各类模态内部比较和各类模态之间比较发现了一些规律和特点。骨骼模态数据和RGB模态数据是人体行为识别中使用较多的模态。在各类模态下，深度学习的方法一般都优于手工特征的方法，这是因为深度学习提取的特征基于数据集本身的数据信息，相较于手工特征，深度学习获得的特征更加准确地描述了动作。通过融合不同数据模态的特征或者决策层融合，实现信息互补，达到更优异的效果。

07 结语

目前，行为识别在一些数据集上的识别率已经很高，在日常生活中也有一些应用。但是行为识别仍然存在许多挑战。1）数据集的规模越来越大，环境越来越复杂，愈发符合现实场景。物体遮挡、视频的像素值和帧数、交互运动以及图像的多尺寸等因素，都会极大地影响识别过程。2）尽管目前有许多模态的数据，但并非所有模态的数据都易采集。RGB模态是能够利用一般相机直接获得，深度模态需要深度传感器（如Kinect相机）获得，而骨骼模态是从前两者模态中抽象得到的一种描述人体行为的模态数据。3）特殊动作的识别包括相似动作的识别、多人动作的识别以及高速动作的识别。对于这些挑战，研究者还需不断探索，寻找解决问题的方案。本文总结了一些行为识别领域在未来可行的研究方向：1）多模态融合是一个具有前景的研究方向。无论是在特征层的特征融合，或者在预测阶段的决策融合，都已经被证明是一个可行的方案。除了上述所提的主流模态外，一些模态（如红外线、声音）等信息也能够融合其中，实现信息补充，提高识别性能。2）深度学习网络已经成为主流，符合数据集规模增加的趋势。手工制作的特征并非完全舍弃。研究人员依然可以借鉴制作特征的思想，从视频中提取去除无关信息的手工特征后再输入深度学习的网络中，减少了网络参数，也提高了识别效果。3）设计和移植新型网络，增加注意力模块。自从2D卷积神经网络应用在行为识别领域，识别效果大幅提升。然后，3D卷积神经网络、图卷积网络的应用使识别效果又提升了一个层次。所以，设计新型的网络或者移植其他领域的网络是有参考价值的。同时，注意力模块在网络中愈发广泛应用。注意力模块能够较好地去除时间和空间特征中的无关信息，将重点放在显著区域，进而提升识别准确率。本文从多模态的角度对行为识别的研究进行了综述，整理了主流的数据集，全面分析了各类模态的行为识别方法，重点分析了特征的设计和网络的结构，最后对比不同算法或网络的效果，总结出一些存在的问题和未来可行的方向。本文的分类结构希望能给初学者提供一个完整的行为识别领域的知识，使相关研究人员能从中获得一些创新的思路和启发。

编辑：黄飞

阅读全文

人机交互(54713) 人机交互(54713)
计算机视觉(45543) 计算机视觉(45543)
行为识别(2482) 行为识别(2482)

神经模态芯片发展的方向神经模态芯片威廉希尔官方网站解析

North、Intel发布Loihi之后，Pohoiki Beach又一次让神经模态计算走进了聚光灯下。本文将为读者重点介绍神经模态计算芯片的发展前景以及市场情况事实上除了IBM和Intel之外，一些优秀

2020-09-15 15:41:32

694

语音识别威廉希尔官方网站最新进展：视听融合的多模态交互成为主要演进方向

电子发烧友网报道（文/李弯弯）所谓“模态”，英文是modality，用通俗的话说，就是“感官”，多模态即将多种感官融合。多模态交互威廉希尔官方网站 是近年来人工智能领域的一项重要创新。随着语音识别威廉希尔官方网站 的发展，采用

2023-12-28 09:06:45

1301

深度解析多传感器信息融合威廉希尔官方网站

所谓多传感器信息融合（Multi-sensor Information Fusion,MSIF），就是利用计算机威廉希尔官方网站 将来自多传感器或多源的信息和数据，在一定的准则下加以自动分析和综合，以

2018-11-07 10:53:06

2017全国深度学习威廉希尔官方网站应用大会

自然语言处理领域的最新研究进展，然后重点介绍深度学习方法在弹幕语义表示，诗歌生成，实体蕴含关系识别，试题难度预测的相关应用。　　2、报告题目：基于大规模弱标注数据的深度学习　　报告人：杨奎元微软研究

2017-03-22 17:16:00

多址接入威廉希尔官方网站解析

多址接入威廉希尔官方网站 介绍

2020-12-21 06:52:37

深度学习与数据挖掘的关系

深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。晦涩难懂的概念，略微有些难以

2018-07-04 16:07:53

研究：面部识别威廉希尔官方网站目前并不可靠

据英国《每日邮报》6月25日报道，研究人员发现，在面部数量达百万级的测试中，饱受争议的面部识别威廉希尔官方网站 并不像声称地那么准确。　　　　人工智能可以在数千张面孔中识别出你的面孔，准确率近乎百分之百，，但当其

2016-06-28 14:10:07

AUTOSAR架构深度解析精选资料分享

AUTOSAR架构深度解析本文转载于：AUTOSAR架构深度解析AUTOSAR的分层式设计，用于支持完整的软件和硬件模块的独立性(Independence)，中间RTE(Runtime Environment)作为虚拟功能...

2021-07-28 07:02:13

AUTOSAR架构深度解析精选资料推荐

AUTOSAR架构深度解析本文转载于：AUTOSAR架构深度解析目录AUTOSAR架构深度解析AUTOSAR分层结构及应用软件层功能应用软件层虚拟功能总线VFB及运行环境RTE基础软件层(BSW)层

2021-07-28 07:40:15

BAW威廉希尔官方网站推进大数据发展

近日，德州仪器的Ahmad Bahai博士发表文章《Disruptive TI BAW technology accelerates big data on the information superhighway》，解析TI体声波(BAW)威廉希尔官方网站 对于大数据发展的巨大作用，以下为译文：

2019-07-29 07:34:35

C语言深度解析

C语言深度解析，本资料来源于网络，对C语言的学习有很大的帮助，有着较为深刻的解析，可能会对读者有一定的帮助。

2023-09-28 07:00:01

LTE-Advanced威廉希尔官方网站的发展及相关的主要威廉希尔官方网站解析

本文对LTE-Advanced威廉希尔官方网站的发展及相关的主要威廉希尔官方网站 进行了介绍，并就其关键威廉希尔官方网站 做出了探究。可以预见，LTE-Advanced威廉希尔官方网站将在很长一段时间内作为世界范围移动通信领域的热点研究课题，这将更有利于推动第四代通信威廉希尔官方网站 的发展，人类进入4G 时代不再遥远。

2021-05-24 06:46:32

MIMO威廉希尔官方网站研究热点

速率）。MIMO威廉希尔官方网站对于传统的单天线系统来说，能够大大提高频谱利用率，使得系统能在有限的无线频带下传输更高速率的数据业务。目前，各国已开始或者计划进行新一代移动通信威廉希尔官方网站 （后3G或者4G）的研究，争取在

2019-07-11 07:39:51

NLPIR智能威廉希尔官方网站推动NLP语义挖掘快速发展

产业产生重要影响，还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域，大数据将引发数据快速处理分析、数据挖掘威廉希尔官方网站 和软件产品的发展。大数据利用将成为提高核心竞争力的关键因素。各行各业

2019-03-14 11:50:51

Zstack中串口操作的深度解析(一)

本帖最后由 eehome 于 2013-1-5 10:06 编辑 Zstack中串口操作的深度解析(一)欢迎研究ZigBee的朋友和我交流。。。

2012-08-12 21:11:29

java经典面试题深度解析

免费视频教程：java经典面试题深度解析对于很多初学者来说，学好java在后期面试的阶段都没什么经验，为了让大家更好的了解面试相关知识，今天在这里给大家分享了一个java经典面试题深度解析的免费视频

2017-06-20 15:16:08

【HarmonyOS HiSpark IPC DIY Camera试用】基于视频的农村公路巡查事件人工智能检测系统关键威廉希尔官方网站研究

项目名称：基于视频的农村公路巡查事件人工智能检测系统关键威廉希尔官方网站研究试用计划：申请理由本人在AI领域有两年多的学习和开发经验，对图像识别，GAN等威廉希尔官方网站 有过深入的学习和探索。想借助发烧友论坛

2020-11-19 20:51:04

【战疫专题】第六期：突破口罩+护目镜挑战，多模态生物识别威廉希尔官方网站成趋势

2020年，新型冠状病毒席卷了整个中国，同时也在促进着产业的变革与生活变化。电子发烧友在此期间推出【战疫专题】活动，持续为大家分享每期不同主题的相关资料。本期主题：突破口罩+护目镜挑战，多模态

2020-03-25 10:37:16

一文读懂语言识别威廉希尔官方网站原理1

` 本帖最后由讯飞开放平台于 2018-7-2 08:55 编辑语音识别是十年来发展最快的威廉希尔官方网站 之一，随着AI的不断发展，深度学习让语音识别威廉希尔官方网站 得到了质的飞跃，开始从实验室走向市场，并逐步

2018-06-28 11:27:08

一种对通信信息诈骗行为进行识别和对深度受害人进行防控双重防护的方法

研判和处置。　　2 系统威廉希尔官方网站 架构　　整体系统威廉希尔官方网站 架构如图1所示。系统主要包含诈骗电话识别、受害程度判定规则及易感人群识别等三大模块。利用信令数据中异常主叫行为及事件链来识别诈骗号码，利用通话相似行为来

2020-12-03 14:14:34

人脸识别威廉希尔官方网站在安防领域的发展状况

应用从根本上解决了欺诈、冒充、伪造等的、犯罪行为的发生，从“控”到“放”是目前社会应用最根本的变化。2.应用的创新表现近年来，人脸识别最大的创新是从“公式计算”到“计算公式”发展。人脸识别威廉希尔官方网站 上有了一个

2017-07-28 13:57:28

人脸识别威廉希尔官方网站推进智慧交通的发展

`人脸识别威廉希尔官方网站 推进智慧交通的发展随着科技的发展，现在坐地铁都可以刷脸进站了！据报道，武汉火车刷脸进站只需要2秒钟就能通过，目前，90%的旅客进站均使用刷脸进站系统，就算是化妆女士也可以快速识别

2017-08-24 14:25:14

人脸识别威廉希尔官方网站最新发展与研究

人脸识别威廉希尔官方网站 最新发展与研究 2013年全国图形图像威廉希尔官方网站 应用大会将在十一月初召开，本次大会大会将邀请国内图像图形处理威廉希尔官方网站 领域的著名专家，就图像图形处理威廉希尔官方网站 的应用和最新动态做特邀报告。并邀请图像图形威廉希尔官方网站

2013-09-25 16:08:41

人脸识别威廉希尔官方网站的60年发展史

脸识别特指通过人脸进行身份确认或者身份查找的威廉希尔官方网站 或系统。　人脸识别威廉希尔官方网站发展　　早在20世纪50年代，认知科学家就已着手对人脸识别展开研究。20世纪60年代，人脸识别工程化应用研究正式开启。当时的方法主要

2018-06-20 13:29:41

人脸识别威廉希尔官方网站的优缺点

并将信息保存为数字来从数字图像中识别或验证人。该威廉希尔官方网站 使用深度学习算法来比较这些图像，以确保它是正确的个人身份，使其与其他生物识别威廉希尔官方网站 （例如指纹匹配，视网膜扫描和语音识别）非常相似。　　面部识别威廉希尔官方网站 能够

2020-12-24 16:34:14

人脸识别之智能行为检测威廉希尔官方网站

的运用非常多。在家居、小区、教育、门店、交通、公安等许多地方都可以涉及到。我今天主要给大家讲的就是人脸识别的智能行为检测威廉希尔官方网站 。行为就是比如你走路、脚步迈开就是一个行为、举个手就是一个行为、或者就是打哈欠

2017-07-07 13:30:42

人脸识别的研究范围和优势

`如今，备受人们的关注还是自身安全和个人隐私。钱包、密码、磁卡、钥匙等传统的安全措施已经不能满足人们的要求。科技圈把这一要求利用了生物识别威廉希尔官方网站研究出了人脸识别。人脸威廉希尔官方网站 的研究范围：1.人脸检测，从不

2017-06-29 11:52:58

什么是深度学习？使用FPGA进行深度学习的好处？

，即使使用具有一定低位宽的数据，深度学习推理也不会降低最终精度。目前据说8位左右可以提供稳定的准确率，但最新的研究表明，已经出现了即使降低到4位或2位也能获得很好准确率的模型和学习方法，越来越多的正在

2023-02-17 16:56:59

千兆高端防火墙的威廉希尔官方网站特征与发展趋势

防火墙的未来是向着高性能，强大的QoS保证能力和深度防御三个方向发展。***，金融电力等关键行业的数据中心、大型电信运营商的网络流量巨大，业务复杂。多业务下的流量剧增不仅对带宽提出了很高的要求，而且对防火墙多业务支持的功能和性能方面也提出了很高的要求。

2019-07-11 07:38:47

基于3G的RFID身份识别安全解决方案

识别)威廉希尔官方网站 是一种带有特定识别信息的无线电波传输威廉希尔官方网站 。最早诞生于第二次世界大战，是***的敌我识别(IFF)威廉希尔官方网站 的发展。经过半个多世纪的研究和推动，在美国***大力支持下，自上世纪90年代开始，逐步

2019-05-29 07:56:50

基于深度学习威廉希尔官方网站的智能机器人

图像分析软件。其中硬件负责获取特定条件下的理想图像，软件负责获取图像中的有用信息。基于机器学习的模式识别系统三、深度学习在图像处理中的应用图像处理威廉希尔官方网站 包括图像预处理和数据分析两部分，图像预处理指的是

2018-05-31 09:36:03

基于深度学习的异常检测的研究方法

ABSTRACT1.基于深度学习的异常检测的研究方法进行结构化和全面的概述2.回顾这些方法在各个领域这个中的应用情况，并评估他们的有效性。3.根据基本假设和采用的方法将最先进的深度异常检测威廉希尔官方网站 分为

2021-07-12 06:36:22

基于深度学习的异常检测的研究方法

的研究方法进行了系统而全面的综述。此外，我们回顾了这些方法在不同应用领域中的应用，并评估了它们的有效性。我们根据所采用的基本假设和方法，将最先进的深度异常检测研究威廉希尔官方网站 分为不同的类别。在每个类别中，我们

2021-07-12 07:10:19

基于识别威廉希尔官方网站的智能安保系统

智慧社区的安全人脸识别威廉希尔官方网站 行为识别和身份识别威廉希尔官方网站

2021-01-26 06:52:30

基于DSP的快速纸币图像识别威廉希尔官方网站研究

本课题通过对现有图像识别威廉希尔官方网站 进行研究和分析，针对当前DSP(数字信号处理)威廉希尔官方网站 的新发展，提出了基于DSP的快速图像识别概念。快速图像识别威廉希尔官方网站 以嵌入式系统为算法的实现平台，它结合了当前最新的数信号处理

2014-11-05 14:43:48

射频识别威廉希尔官方网站与电磁兼容研究

，该威廉希尔官方网站 及其应用处于初级发展阶段，存在威廉希尔官方网站 水平不高、标准规范不完整等诸多问题。但同时，射频识别威廉希尔官方网站 在我国又拥有广阔的发展前景和巨大的市场潜力，相对于条码威廉希尔官方网站 而言，射频识别威廉希尔官方网站 的发展和应用的推广将是我国

2019-07-25 07:55:32

平面显示器的威廉希尔官方网站发展与实验室中的研究方向是什么

本文以液晶显示器威廉希尔官方网站 为主轴，谈谈平面显示器的威廉希尔官方网站发展与实验室中的研究方向。

2021-06-07 07:01:51

指纹识别威廉希尔官方网站原理及发展

　　指纹识别威廉希尔官方网站 的基本原理指纹识别原理图　　指纹其实是比较复杂的。与人工处理不同，许多生物识别威廉希尔官方网站 公司并不直接存储指纹的图象。多年来在各个公司及其研究机构产生了许多数字化的算法（美国有关法律认为

2018-11-12 15:36:51

施工经验--桥梁检测威廉希尔官方网站的发展趋势

`3.1桥梁无损伤检测威廉希尔官方网站 近年来，无损检测威廉希尔官方网站 相对多的应用于桥梁检测，研究人员提出了许多成功的方法对桥梁进行非破坏性评估。一些新的方法被广泛应用于桥梁检测，如利用相干激光雷达测试桥粱下部结构的挠度

2020-10-14 07:59:49

无线射频识别威廉希尔官方网站及应用和发展趋势

，读取距离远，无需与目标接触就可以得到数据，支持写入数据，无需重新制作新的标签，可重复使用，并且使用了防冲撞威廉希尔官方网站 ，能够识别高速运动物体并可同时识别多个射频卡。　　近年来，无线射频识别威廉希尔官方网站 在国内外发展

2020-12-14 16:07:48

无线射频识别威廉希尔官方网站应用的发展趋势怎么样

距离远，无需与目标接触就可以得到数据，支持写入数据，无需重新制作新的标签，可重复使用，并且使用了防冲撞威廉希尔官方网站 ，能够识别高速运动物体并可同时识别多个射频卡。近年来，无线射频识别威廉希尔官方网站 在国内外发展很快，RFID

2019-05-29 06:09:42

最酷的生物识别威廉希尔官方网站

生物识别威廉希尔官方网站 组合起来，根据实际的应用场景、用户条件、安全等级自动切换，形成多模态识别威廉希尔官方网站 ，将比任何单一生物特征更具竞争力。

2018-11-12 15:51:09

机器视觉威廉希尔官方网站应用之人脸识别

这两种威廉希尔官方网站 还远不成熟，识别效果不尽人意。最新发展起来的一种解决方案是基于主动近红外图像的多光源人脸识别威廉希尔官方网站 。它可以克服光线变化的影响，已经取得了卓越的识别性能，在精度、稳定性和速度方面的整体

2014-01-14 11:05:59

松灵新品丨全球首款多模态®ROS开发平台LIMO来了，将联合古月居打造精品课程精选资料分享

多地形通过性和多场景的适应性一直是无人驾驶、机器人等场景化所需要突破的难题。通过多模态运动融合，提高跨维度运动的柔性适应能力是一种理想的解决方式，这决定了机器人和移动平台未来应用场景开拓的深度和广度

2021-08-30 08:39:33

汽车Vin码识别系统，就用OCR识别威廉希尔官方网站

——通过VIN码自动解析出数据，汽车配置、参数一目了然；汽车VIN码识别系统•全面——VIN数据覆盖市面上99%车型，解析出汽车参数可满足汽车后市场信息需求；汽车VIN码识别系统•简单——提供开发接口、详尽

2019-06-28 13:40:19

百度深度学习研究院科学家深度讲解人工智能

的研发经验。在过去的工作中，他发表过论文十余篇，申请中国专利超过100项，其中已经授权的有95项。他曾任职百度深度学习研究院，负责人脸识别方向，曾经多次带领团队在主流的人脸检测、人脸识别竞赛上取得

2018-07-19 10:01:11

自动步态识别系统如何实现？

identification at adistance)计划，其目的就是开发多模态视觉监控威廉希尔官方网站 以实现远距离情况下人物的检测、分类和识别。中科院自动化研究所模式识别国家重点实验室近年也开始了对步态识别的研究，而且创建了NLPR步态数据库。

2019-09-24 07:16:16

航空电子设备PCB组件的实验模态分析

，本文试图采用有限元分析（FEA）与实验模态分析（EMA）相结合的预试验分析威廉希尔官方网站 来进行某航电设备PCB 组件（图1 所示）的动态特性分析，并建立了该PCB 组件的有限元动力学分析模型。　　1 有限元模态

2018-09-13 16:40:12

视频监控系统图像处理威廉希尔官方网站应用解析

视频监控系统图像处理威廉希尔官方网站 应用解析随着物联网和移动互联网威廉希尔官方网站 的迅速发展，传统的IT架构逐渐云端化，计算资源和承载业务将进一步深度整合，在物联网和云计算汇聚的潮流中，视频监控威廉希尔官方网站 将发生彻底的变革：视频

2013-09-23 15:00:02

语音识别设计要素与电路图集锦

。　　近几年来，特别是2009年以来，借助机器学习领域深度学习研究的发展，以及大数据语料的积累，语音识别威廉希尔官方网站 得到突飞猛进的发展。近期，语音识别在移动终端上的应用最为火热，语音对话机器人、语音助手、互动工具等

2014-12-20 15:52:06

请教关于无线射频识别威廉希尔官方网站的解析？

迅速上升的时期，被业界公认为是本世纪最具潜力的威廉希尔官方网站 之一，它的发展和应用推广将是自动识别行业的一场威廉希尔官方网站 革命。而RFID在交通物流行业的应用更是为通信威廉希尔官方网站 提供了一个崭新的舞台，将成为未来电信业有潜力的利润

2019-08-08 07:27:33

车联网语音识别威廉希尔官方网站发展与应用

延伸。但是对于高速行驶、行为受限的车载应用场景中，社交功能的实现存在很大的挑战。智能设备的交互方式中按键交互和触摸屏交互应用最广也最为成熟，但对于车辆驾驶是“危险的动作”。在此背景下基于语音识别威廉希尔官方网站

2013-07-26 15:40:55

高速公路GPS车辆动态监控威廉希尔官方网站研究

了具体的匹配准则和算法流程；对车载终端与监控中心交互数据的传输流程进行了详细分析，设计了监控中心数据库，并根据通信协议，解析了具体的数据包实例；最后，在对高速公路GPS 车辆动态监控威廉希尔官方网站研究的基础上

2009-04-16 13:47:49

基于曲率模态振型的损伤识别方法研究

基于曲率模态振型的损伤识别方法研究　研究了适用于桥梁和连续梁结构的基于曲率模态振型的损伤识别方法。以一2D 框架结构有限元模型为数值算例,比较了使用不同振型、不同

2008-10-24 14:55:43

基于应变模态和贝叶斯方法的杆件损伤识别

基于应变模态和贝叶斯方法的杆件损伤识别　提出了一种基于空间杆系结构应变模态和贝叶斯统计方法的损伤识别方法。对于空间杆系结构,认为其杆件只承受轴向应力,因此,由节

2008-10-24 15:02:47

基于曲率模态振型的损伤识别方法研究

基于曲率模态振型的损伤识别方法研究:　研究了适用于桥梁和连续梁结构的基于曲率模态振型的损伤识别方法。以一2D 框架结构有限元模型为数值算例,比较了使用不同振型、不同损

2009-11-08 16:46:04

指纹识别威廉希尔官方网站的研究

指纹识别威廉希尔官方网站 的研究国内外发展现状以及发展趋势

2016-02-25 13:49:42

基于多特征融合的跌倒行为识别与研究_彭玉青

2017-01-08 11:13:29

基于行为识别和SVM的短信过滤方法研究_赵英刚

2017-03-16 14:37:38

基于深度图形与骨骼数据的多特征行为识别方法

处理。随着图像威廉希尔官方网站 与硬件的发展，利用微软Kinect或华硕Xtion等设备，学者可以实时获取人体的深度图像信息。与传统的图像相比，深度图像不受光照影响，能够提供三维空间信息。利用深度图像，学者们对行为识别做了许多研究，本文

2017-12-09 11:47:51

多文化场景下的多模态情感识别

学习的特征，并通过多模态融合方法结合不同的模态。比较不同单模态特征和多模态特征融合的情感识别性能．我们在CHEAVD中文多模态情感数据集和AFEW英文多模态情感数据集进行实验，通过跨文化情感识别研究，我们验证了文化因素

2017-12-18 14:47:31

新型人体行为识别方法研究

基于智能手机内置加速度传感器的人体行为识别是近年来人工智能领域的一个研究热点，传统的贝叶斯、极速学习机、决策树等识别方法都必须先针对加速度传感器采集数据提取时频域特征，并从大量的时频特征中进行特征

2018-01-17 17:23:18

深度解析人脸识别威廉希尔官方网站

人脸识别是AI威廉希尔官方网站发展较快、应用较多的一个领域，目前国内人脸识别应用已相当广泛，并积累了不少实战经验。

2018-08-26 10:11:06

11739

基于深度学习的人脸识别威廉希尔官方网站全解

全面解析人脸识别威廉希尔官方网站 原理、领域人才情况、威廉希尔官方网站 应用领域和发展趋势。

2018-11-12 14:54:40

24168

2018中国大数据威廉希尔官方网站大会携主题“大数据新应用”强势来袭

近年来，以深度神经网络为代表的深度学习方法掀起了人工智能威廉希尔官方网站研究与应用的新高潮。本论坛邀请了国内从事深度学习研究的一线青年学者与会分享最新的威廉希尔官方网站 成果。他们将从多模态深度学习、深度强化学习、深度学习轻量化等多个威廉希尔官方网站 方向，同时从自然语言处理、行人重识别、人脸识别等多个应用领域，深入介绍了最新的威廉希尔官方网站发展。

2018-11-19 09:42:49

4276

康佳发布了全新的AI人脸识别电视主打数据精准分析与多模态识别系统

近日，康佳发布了全新的AI人脸识别电视，主打数据精准分析与多模态识别系统。相关产品可以结合人脸识别的个人ID以及性别、年龄等属性，可以为用户提供个性化的内容推送和更加便利的操控体验。

2019-01-02 10:14:54

1194

目前行为识别威廉希尔官方网站呈现以下发展趋势

目前，国内行为识别威廉希尔官方网站 采用的是基于计算机视觉的行为识别，在不同场合通过摄像头采集大量的视频、图像数据，主要应用在公共场合，如火车站、飞机场等，用来监控一些非法行为。

2019-05-16 15:30:09

3976

行为识别占据了普及优势市场前景十分广阔

和人工智能等其他领域的紧密结合，行为采集和分析得到的数据信息给科学研究带来了可观的高效便利，人的行为分析以及模式识别已成为相关领域位居热门的研究话题之一。

2019-05-17 09:01:43

3237

威廉希尔官方网站 | 基于深度学习图像识别的变电站监控系统

基于计算机网络威廉希尔官方网站 以及无线通信威廉希尔官方网站 和视频监控威廉希尔官方网站 ，研究深度学习图像识别的变电站基建安全行为监控系统。

2019-07-22 08:29:10

5009

多模态生物识别成趋势

多模态生物识别是指整合或融合两种及两种以上生物识别威廉希尔官方网站 ，利用其多重生物识别威廉希尔官方网站 的独特优势，并结合数据融合威廉希尔官方网站 ，使得认证和识别过程更加精准、安全。

2020-03-11 14:26:40

3226

多模态成AI行业发展新风向新基建行业进入快车道

近日，由蚂蚁金服牵头制定的“生物特征识别多模态融合国际标准”正式立项，这一标准的制定，对于多模态领域发展与威廉希尔官方网站 规范产生了重大影响。

2020-03-31 11:46:47

2811

如何使用深度学习实现语音声学模型的研究

的分析识别更是研究的重中之重。近年来深 10 度学习模型的广泛发展和计算能力的大幅提升对语音识别威廉希尔官方网站 的提升起到了关键作用。本文立足于语音识别与深度学习理论紧密结合，针对如何利用深度学习模型搭建区分能力更强鲁棒性更

2020-05-09 08:00:00

AI行为识别分析威廉希尔官方网站在智慧养老行业的应用

AI行为识别分析威廉希尔官方网站 ，是一款基于AI神经网络的深度学习算法，通过实时分析视频流，从视频流中勾勒出人体骨架结构，根据人的姿态特征和肢体运动轨迹，计算出各种人的异常动作行为。

2020-05-13 15:53:37

10262

百度研制知识增强的跨模态深度问答威廉希尔官方网站等在内的的应用系统

同时，百度还研制了知识增强的跨模态深度语义理解方法，通过知识关联跨模态信息，运用语言描述不同模态信息的语义，进而让机器实现从看清到看懂、从听清到听懂，即图像和语言、语音和语言的一体化理解。

2020-09-16 14:48:00

2005

多模态生物识别系统的原理及局限性

随着威廉希尔官方网站 的发展，使用生物识别威廉希尔官方网站 实施安全个人识别协议的挑战正在增加，并且在世界上几乎每个市场中对于准确的人类识别的需求都比以往更高。生物识别管理市场的并行发展已经确定，用于识别目的的单个硬件模态的使用可能不再是许多行业的最明智的选择，那多模态生物识别系统有哪些优势？

2020-10-09 15:30:39

2580

一文解析多模态生物识别威廉希尔官方网站的安全性

多模态生物特征识别是指在识别系统中使用两种或更多种生物特征的组合，例如，结合人脸识别和虹膜识别的系统可以被认为是多模态生物识别系统，那多模态生物识别威廉希尔官方网站 安全吗？

2020-10-13 09:45:56

770

多模态生物识别威廉希尔官方网站的原理

生物识别威廉希尔官方网站 是指基于每个人独特的生物和行为特征的可以被采样和测量的识别威廉希尔官方网站 。生物特征分为生理特征和行为特征。生理特征是指人体固有的人脸、虹膜、指纹、掌静脉、DNS等等。

2020-10-15 11:32:03

3166

深度解析依图行为识别的AI威廉希尔官方网站

江湖三十年鏖战，AI 即出，多方势力涌入让这个世界重新异彩纷呈，也经历了新一轮洗牌。在这场战役中留下姓名的企业，皆因威廉希尔官方网站 、产品、服务等硬实力，成为了行业中的佼佼者。在同样起跑线，有些企业总是

2021-03-19 10:34:31

5260

基于层次注意力机制的多模态围堵情感识别模型

识别模型。在音频模态中加人频率注意力机制学习频域上下文信息，利用多模态注意力机制将视频特征与音频特征进行融合，依据改进的损失函数对模态缺失问题进行优化，提高模型的鲁棒性以及情感识别的性能。在公开数据集上的实

2021-04-01 11:20:51

利用应变模态差识别弯管内部损伤的研究

为研究利用应变模态差识别弯管内部损伤的方法，以损伤前、后的应变模态差作为弯管损伤识别的损伤指标对其展开研究。首先，基于位移模态和应变模态的模态叠加特性和正交性推导了应变模态差公式;其次，利用有限元

2021-04-15 15:25:36

基于深度学习的特种车辆跨模态检索和识别方法

保证正在执行任务的特种车辆的道路优先通行权，是合理配置城市交通资源、实施和保证应急救援的前提。特种车辆的跨模态识别是实现智慧交通的重要核心威廉希尔官方网站 ，尤其是在智能车联网尚未成熟、未来长期存在无人驾驶和有人

2021-04-23 14:56:07

可提高跨模态行人重识别算法精度的特征学习框架

为了提升跨模态行人重识别算法的识别精度，提出了一种基于改进困难三元组损失的特征学习框架。首先，改进了传统困难三元组损失，使其转换为全局三元组损失。其次，基于跨模态行亼重识别中存在模态间变化及模态内变

2021-05-10 11:06:14

基于深度学习的行为识别算法及其应用

2021-06-16 14:56:38

HarmonyOS测试威廉希尔官方网站与实战-HarmonyOS图形栈测试威廉希尔官方网站深度解析

HDC 2021华为开发者大会HarmonyOS测试威廉希尔官方网站 与实战-HarmonyOS图形栈测试威廉希尔官方网站 深度解析

2021-10-23 15:09:00

1252

基于不同数据模态的人类动作识别综述

RGB 模态指的是由 RGB 相机捕获的图像或序列。而光流则是视频图像中同一对象（物体）像素点移动到下一帧的移动量，由于通常是由 RGB 模态数据所进一步生成，所以下文中把 RGB 和光流模态统称为 RGB 模态。

2022-10-13 15:58:50

1009

面部表情识别威廉希尔官方网站的最新研究进展

面部表情识别威廉希尔官方网站 是人工智能领域的研究热点之一，对于揭示情感状态和心理状况具有重要意义。本文将介绍面部表情识别威廉希尔官方网站 的最新研究进展，包括深度学习、多模态融合、微表情识别等方面。首先，深度学习在面部表情

2023-08-21 17:58:01

569

语音识别威廉希尔官方网站的现状及发展趋势

一、引言随着科技的快速发展，语音识别威廉希尔官方网站 得到了广泛应用。语音识别威廉希尔官方网站 是一种人机交互的关键威廉希尔官方网站 ，它使得计算机能理解和解析人类语言。本文将探讨语音识别威廉希尔官方网站 的现状及未来的发展趋势。二、语音识别威廉希尔官方网站

2023-09-28 16:55:01

1587

深度学习在语音识别中的应用及挑战

一、引言随着深度学习威廉希尔官方网站 的快速发展，其在语音识别领域的应用也日益广泛。深度学习威廉希尔官方网站 可以有效地提高语音识别的精度和效率，并且被广泛应用于各种应用场景。本文将探讨深度学习在语音识别中的应用及所面临

2023-10-10 18:14:53

445

语音识别威廉希尔官方网站：现状、挑战与未来发展

1.深度学习驱动的语音识别：深度学习已经在语音识别领域取得了显著的成果。特别是循环神经网络（RNN）和长短期记忆网络（LSTM）的应用，使得语音识别的精度和效率大大提高。 2.多语种和多模态语音识别：语音识别威廉希尔官方网站 已经不再局

2023-10-12 16:57:30

957

语音识别威廉希尔官方网站的优化与发展趋势

一、引言语音识别威廉希尔官方网站 是一种将人类语音转化为计算机可理解数据的威廉希尔官方网站 。随着人工智能和深度学习的发展，语音识别威廉希尔官方网站 取得了显著的进步。本文将探讨语音识别威廉希尔官方网站 的优化与发展趋势。二、语音识别威廉希尔官方网站 的优化 1.

2023-10-12 18:33:16

351