深度学习在语音增强中的应用-电子发烧友网

随着科学威廉希尔官方网站的发展，语音作为新一代人机交互方式，成为人和智能设备、语音助手交流的重要接口，然而在真实环境中，语音信号不可避免的被各种噪声所干扰，除了各种环境噪声，声波在封闭空间中的衰减和延时反射所引起的混响等都会影响语音的感知质量，研究者将真实场景下影响语音质量的因素总结为三个方面：环境噪声、房间混响和其他说话人干扰，语音增强的目的就是消除上述三个方面的影响。语音增强是指利用音频信号处理的威廉希尔官方网站以及算法提高失真语音信号的整体感知质量或者可懂度。

语音去噪

深度学习在语音降噪中的应用广泛，根据处理语音的通道数不同，可以分为单通道降噪和多通道降噪，其中单通道语音的去噪由俄亥俄州立大学的汪德亮团队提出的基于DNN-SVM算法，后来又相继提出CRNN、DP-SARNN和Transformer等算法，Zhang等人[1]人提出了双分支神经网络DBNet同时在时域和频域上解决语音增强的问题。而深度学习在多通道语音增强中常常结合空间信息或者传统算法例如波束形成等实现去噪，例如具有代表性算法的基于掩蔽的波束形成威廉希尔官方网站 [2]。利用深度学习进行语音去的算法一般包括非端到端语音降噪方法和端到端语音降噪算法。其中非端到端语音降噪的算法常用的处理方式有基于掩膜的方法和基于特征映射的方法。

基于深度学习非端到端语音去噪方法框图

基于深度学习端到端语音去噪算法框图

基于掩膜的语音增强

基于时频掩蔽的语音增强方法将描述纯净语音与噪声之间相互关系的时频掩蔽作为学习目标，该方法假设纯净语音信号与噪声之间有一定的独立性，理想二值掩蔽（Ideal Binary Mask，IBM）是最初被引入语音增强的时频掩蔽方法，该掩蔽方法通过判断某个时频单元内语音与噪声主导情况将连续的时频单元离散化为0或1两种状态，IBM公式如下所示：

通过IBM的公式可以看出只有0、1两种取值，可以一定程度提高语音质量，但这种方法对于带噪语音的处理过于简单粗暴，会在处理过程中引入较大的噪声。

基于语音和噪声独立假设的情况下，基于比值掩蔽的方法刻画了时频单元内纯净语音能量和带噪语音能量的比值，该类掩蔽方法中常用的有理想比值掩蔽（Ideal Ratio Mask，IRM）。IRM相较于IBM从离散的状态值变为连续的状态值，相较之下可以有效的提升语音的质量和可懂度，但是缺点是利用带噪语音的相位信息对纯净语音进行了重构。

除了上述两种掩蔽方法，仍然有许多的掩蔽方法，例如基于信号能量比值的理想幅度掩蔽（Ideal Amplitude Mask，IAM），考虑相位误差的时频掩蔽方法的相位敏感掩蔽（Phase Sensitive Mask，PSM），广泛应用的复数域的复数理想比率掩蔽（Complex Ideal Ratio Mask，cIRM）以及最佳比例掩膜（Optimal Ratio Mask，ORM）等等。这些掩蔽根据语音以及噪声的幅度谱或者功率谱计算获得，通过网络计算得到估计掩蔽后，将带噪语音信号与时频掩蔽相乘得到纯净语音信号，进而得到干净语音的时域波形。

基于特征映射的方法

基于特征映射的语音增强方法是通过网络完成带噪语音特征和干净语音特征之间的映射关系，常见的特征映射包括目标幅度谱（TMS）、短时傅里叶变换幅度谱（STFT）等，通过带噪语音估计纯净语音特征，将得到的谱图与带噪语音相位结合，从而得到语音波形。另外声学特征也可以被用作特征映射深度学习的目标，例如Chen等人[3]探索了低信噪比下已经被用作语音分离和语音增强的一系列特征的表现，包括了Mel域特征中的MFCC和DSCC，线性预测特征中的PLP特征和RASTA-PLP特征，gamma域中的GF特征、GFCC特征和GFMC特征，信号自相关域中的RAS-MFCC特征、AC-MFCC特征和PAC-MFCC特征，调制域中的GFB特征和AMS特征等。Wang等人[4]提出一种单声道和多声道语音增强的复数频谱映射方法，利用DNN从带噪信号中预测纯净语音的实部和虚部，并融合波束形成算法得到在 CHiME-4语音数据集上WER较好的性能提升。

基于端到端的方法

监督语音增强大部分是在时频域进行的，端到端的语音增强对原始时域波形信号直接进行处理，由于不依赖于频域表示，避免了语音相位信息的丢失以及重构增强语音时使用带噪语音相位可能导致的性能下降问题，使得模型流程简化。Ritwik Giri等人[5]提出了带有注意力机制的U-Net应用于语音增强，在VCTK数据集上测试多信噪比情况下PESQ、SSNR等评价指标都得到了提升。

语音去混响

混响语音为信号和房间冲激响应（Room Impulse Response，RIR）的卷积，这会使得语音信号在时域和频域都发生畸变，导致语音可懂度的下降。利用深度学习的混响消除算法包括三类算法，直接预测、间接预测和联合传统算法。

直接预测的方法为混响语音信号直接映射到纯净语音信号，间接预测的方法例如可以通过预测后期混响信号间接性得到目标语音信号，联合传统算法为将DNN与WPE等算法进行结合，通过网络预测WPE算法中间参数从而去除迭代计算的操作。Han等人[6]在2014年首先提出了基于DNN的语音去混响方法，这种方法在耳蜗图上使用谱映射，DNN被训练成从混响语音帧映射到干净语音帧。Zhao等人[7]通过LSTM预测语音信号晚期混响间接得到目标语音信号，Kinoshita K[8]通过LSTM网络预测WPE算法中的中间参数进而实现混响消除。

语音增强作为语音识别中的一项核心关键威廉希尔官方网站，广泛应用在各种场景之中，国内外研究人员针对语音增强提出了许多算法，深度学习的广泛应用也为来研究领域带来了新的突破，但是语音增强领域仍然有许多问题，例如泛化性能、相位失真问题和低信噪比下的应用效果不理想，未来的语音增强仍然充满挑战。

审核编辑：汤梓红

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人机交互

人机交互

+关注

关注
12

文章
1207

浏览量
55391
噪声

噪声

+关注

关注
13

文章
1122

浏览量
47404
SVM

SVM

+关注

关注
0

文章
154

浏览量
32451
语音增强

语音增强

+关注

关注
0

文章
12

浏览量
8756
深度学习

深度学习

+关注

关注
73

文章
5503

浏览量
121139

原文标题：深度学习在语音增强中的应用

文章出处：【微信号：硬件英国威廉希尔公司网站，微信公众号：硬件英国威廉希尔公司网站】欢迎添加关注！文章转载请注明出处。

深度学习在汽车中的应用

神经系统，因此支持人工智能的概念。图 2：简易反向传播示例尽管深度学习具有效力，但其在实际应用中也遇到了一些挑战。对于容易受到系统限制因素（如总体成本、功耗和扩展计算能力）影响的嵌入式

发表于 03-13 06:45

深度学习中的图片如何增强

深度学习中的图片增强

发表于 05-28 07:03

深度学习在预测和健康管理中的应用

深度学习在预测和健康管理中的应用综述摘要深度学习对预测和健康管理（PHM）引起了浓厚的兴趣，因为

发表于 07-12 06:46

什么是深度学习？使用FPGA进行深度学习的好处？

) 来解决更复杂的问题，深度神经网络是一种将这些问题多层连接起来的更深层网络。这称为深度学习。目前，深度学习被用于现实世界

发表于 02-17 16:56

基于分层编码的深度增强学习对话生成

回答的问题。该方法结合了分层编码和增强学习威廉希尔官方网站，利用分层编码来对多轮对话进行建模，在标准seq2seq的基础上新增了中间层来加强对历史对话语句的记忆，而后采用了语言模型来构建奖励函数，进而用增

发表于 11-25 11:53 •1次下载

苹果Siri深度学习语音合成威廉希尔官方网站揭秘

Siri 是一个使用语音合成威廉希尔官方网站与人类进行交流的个人助手。从 iOS 10 开始，苹果已经在 Siri 的语音中用到了深度学习，iOS 1

发表于 05-26 07:20 •3361次阅读

深度学习在轨迹数据挖掘中的应用研究综述

深度学习在轨迹数据挖掘中的应用研究综述来源：《计算机科学与应用》，作者李旭娟等摘要: 在过去十年，深度

发表于 03-08 17:24 •1982次阅读

AI在汽车中的应用：实用深度学习

AI在汽车中的应用：实用深度学习

发表于 11-01 08:26 •0次下载

基于深度学习的语音合成威廉希尔官方网站的进展与未来趋势

近年来，深度学习威廉希尔官方网站在语音合成领域取得了显著的进展。基于深度学习的

发表于 09-16 14:48 •1076次阅读

深度学习在语音识别中的应用及挑战

一、引言随着深度学习威廉希尔官方网站的快速发展，其在语音识别领域的应用也日益广泛。深度学习威廉希尔官方网站可以有效地提

发表于 10-10 18:14 •902次阅读

基于深度学习的情感语音识别模型优化策略

情感语音识别威廉希尔官方网站是一种将人类语音转化为情感信息的威廉希尔官方网站，其应用范围涵盖了人机交互、智能客服、心理健康监测等多个领域。随着人工智能威廉希尔官方网站的不断发展，深度学习

发表于 11-09 16:34 •719次阅读

GPU在深度学习中的应用与优势

人工智能的飞速发展，深度学习作为其重要分支，正在推动着诸多领域的创新。在这个过程中，GPU扮演着不可或缺的角色。就像超级英雄电影中的主角一样，GPU

发表于 12-06 08:27 •1337次阅读

深度学习在视觉检测中的应用

能力，还使得机器能够模仿人类的某些智能行为，如识别文字、图像和声音等。深度学习的引入，极大地推动了人工智能威廉希尔官方网站的发展，特别是在图像识别、自然语言处理、语音识别等领域取得了显著成果。

发表于 07-08 10:27 •723次阅读

深度学习中的无监督学习方法综述

深度学习作为机器学习领域的一个重要分支，近年来在多个领域取得了显著的成果，特别是在图像识别、语音

发表于 07-09 10:50 •706次阅读

NPU在深度学习中的应用

设计的硬件加速器，它在深度学习中的应用日益广泛。 1. NPU的基本概念 NPU是一种专门针对深度学习算法优化的处理器，它与传统的CPU和G

发表于 11-14 15:17 •534次阅读