利用神经网络模型降低会议环境下的瞬时噪声文献综述

 2022-10-08 12:10

  1. 文献综述(或调研报告):

关于瞬时噪声降噪,目前仅有亚马逊公司有在做相关的研究,现大多数降噪技术都是传统的针对长时噪声的降噪技术,例如LMS自适应滤波器降噪、维纳滤波降噪等等,但对于瞬时噪声的消除能力是有限的。

既然短时噪声的消除用传统方法很难有效的处理,我们决定利用深度学习神经网络的知识进行解决,现已有的研究大多是利用深度神经网络DNN进行语音识别,周志华教授【1】在DNN上的探索于国内处于最顶尖的层次,更是提出deep forest模型,改善了DNN模型的效果。此外,还有大量利用DNN模型应用于各个领域的研究,捷克布尔诺理工大学的Oldrich Plchot和Lukaacute;s Burget在Audio Enhancing with DNN Autoencoder for Speaker Recognition【2】中将DNN自动编码器用于说话人识别的音频增强,提出了构建强大的说话人识别系统的方法,DNN自动编码器经过训练能够消除音频中的加性噪声和混响,文章分析并讨论了该方法对现实世界数据以及人工创建数据的影响。有实验结果支撑,该音频增强方法可以很好地补偿由混响引起的失真,而通过多条件训练非常好地处理了噪声引起的失真。国内也有不少关于DNN的基础研究,袁翔的基于HMM和DNN的语音识别算法研究与实现[12]论文对HMM算法和DNN算法进行研究并实现了一个孤立词控制命令语音识别系统和连续语音识别系统,识别效果不错。类似的研究还有一些参考的文章【3】【4】。

本课题将基于kaldi语音识别工具包进行实现,Daniel Povey和Arnab Ghoshal在The Kaldi Speech Recognition Toolkit【5】文章中对kaldi工具包各模块的功能进行了详细的解释,Kaldi是一个免费的开源语音识别研究工具包,它提供基于有限状态传感器的语音识别系统(使用免费提供的OpenFst)以及用于构建完整识别系统的详细文档和脚本。 Kaldi编写的是C ,核心库支持任意语音 - 上下文大小的建模,子空间高斯混合模型(SGMM)的声学建模以及标准高斯混合模型,以及所有常用的线性和仿射变换。Kaldi是在Apache License v2.0下发布的,限制很少,适用的用户群很广泛。下图给出了Kaldi工具包的示意图。该工具包依赖于两个免费提供的外部库:一个是有限状态框架的OpenFst,另一个是数值代数库,后者使用标准的“基本线性代数子程序”(BLAS)和“线性代数包”(LAPACK)例程。库模块分为两个不同的部分,每个部分仅依赖于一个外部库。单个模块DecodableInterface将这两个模块连接起来。

Prashant Upadhyaya, Omar Farooq等人在文章Continuous Hindi Speech Recognition Model Based on Kaldi ASR Toolkit【6】中详细讲述了逐步使用Kaldi使用个人的数据集创建简单的ASR工具包,对各个版块进行了解释。Kaldi的使用者有很多,类似的还有【7】【8】。

在整个做降噪的过程中,mask的对齐将显得非常重要。首先要对fbank特征(或者MFCC)非常的了解,Mouaz Bezoui在Feature Extraction of some Quranic Recitation using Mel-Frequency Cepstral Coeficients (MFCC)【9】中对MFCC特征的提取过程给出了非常详细的解释说明。Joint Optimization of Modified Ideal Radio Mask and Deep Neural Networks for Monaural Speech Enhancement【10】文章的内容,利用基于DNN的单声道语音增强掩模。 我们提出的语音增强方法使用归一化的互相关系数来修改理想的无线电掩模,改善了客观语音质量,同时保持增强语音的小失真,即使对于一些不可见的噪声类型也是如此。类似的,Improving mask learning based speech enhancement system with restoration layers and residual connection【11】中,通过整合两种类型的恢复层,放宽了基于mask学习的语音增强模型中的匹配尺度约束,文章提出了一种新的残差学习方法来改善语音增强并且评估了CHiME 3任务中提出的语音增强模型。

【参考文献】

[1]周志华.机器学习.清华大学出版社, 2016:97-117.

[2]Oldrich Plchot, Lukaacute;s Burget, Hagai Aronowitz, Pavel Matejka .Audio Enhancing with DNN Autoencoder for Speaker Recogniton. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2016:5090-5094.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。