振动信号的声音转换及语谱图特征分析文献综述

 2022-11-28 04:11
{title}{title}

一、课题背景和意义

语音信号数字处理是一门涉及广泛的交叉学科,它和语音学、语言学、数理统计以及神经生理学、数字信号处理等有密切的联系。语音信号是人类最有效、最常用和最便捷的交换信息方式,在信息化时代,在高度发达的信息社会中用现代手段研究语音信号,使人们能够更加有效的方法对语音信号进行传送、存储、识别、合成、增强具有很强的实用意义[1,2]

人耳能感知的频率范围主要集中在1000至4000Hz,并不能感知主频在30至100Hz的地震波。前几年,国外研究人员将地震数据转换成声音文件,使人们“听到”了来自地下的不同声音,取得了较好的效果。

本课题中振动信号的转换阶段的工作可以将不同岩石的振动信号转换为人耳可以感知的声音,利用人类的听觉辨识不同的岩石,验证由振动信号识别不同岩性的可行性。而频谱分析阶段的工作可以通过傅里叶变换对声音信号进行频谱分析和倒谱分析,绘制频谱曲线及语谱图。通过倒谱曲线的峰值提取声音信号的基音周期和基音频率。通过这些数据对不同岩石振动声音进行分析对比,使不同岩性的岩石特征更加鲜明。

二、国内外研究现状

目前,语言学研究进入了趋向综合性学科的阶段。由于20世纪哲学对符号系统的集中研究以及60年代起计算机科学的巨大进展,人们对语言研究提出了新的要求。在我国也已开始了计算机翻译的研究工作。40年代后期语音学在声学研究方面取得了突破性的进展,使得人工合成语音成为可能[3]。当代的语言研究者不仅面对由人脑控制的语言,而且要考虑如何由电脑来控制语言,即要参与发展具有说话、听话等能力的人工智能,有人称之为第五代计算机。由于研制第五代计算机的需要,言语工程学等有关人工智能的学科已纷纷建立,语言学也日益趋向综合性学科,出现了如应用语言学、心理语言学、社会语言学等与其他学科相交错的语言学新学科。许多有关语言的研究课题已成为不同学科专家共同开发的新领域。目前在我国,作为综合性学科的语言学也已由研究走向了社会应用[4,5]

现代语音信号数字处理的发展也十分喜人,20世纪60年代中期形成的一系列数字信号处理的理论和算法,如数字滤波器、快速傅里叶变换(FFT)等是语音信号数字处理的理论和技术基础。随着信息科学技术的飞速发展,语音信号处理在最近20多年中取得了重大进展:进入70年代之后,提出了用于语音信号的信息压缩和特征提取的线性预测技术(LPC),已成为语音信号处理最强有力的工具,广泛应用于语音信号的分析合成及各个应用领城;以及用于输人语音与参考样本之间时间匹配的动态规划方法。80年代初一种新的基于聚类分析的高效数据压缩技术-矢量量化(VQ)应用于语音信号处理中;而用隐式马尔可夫模型(HMM)描述语音信号过程的产生是80年代语音信号处理技术的重大进展,目前HMM已构成了现代语音识别研究的重要基石。进入20世纪90年代以来,语音信号处理在实用化方面取得了许多实质性的研究进展。其中,语音识别逐渐由实验室走向实用化。一方面,对声学语音学统计模型的研究逐渐深入,鲁棒的语音识别、基于语音段的建模方法及隐马尔可夫模型与人工神经网络的结合成为研究的热点[6]。另一方面,为了语音识别实用化的需要,讲者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题倍受关注。近年来人工神经网络的研究取得了迅速发展,语音信号处理的各项课题是促使其发展的重要动力之一;同时,它的许多成果也体现在有关音信号处理的各项应用之中,尤其语音识别是神经网络的一个重要应用领域[7,8]

目前语音识别的发展,dnn、rnn/lstm和cnn算是语音识别中几个比较主流的方向。2012年,微软邓力和俞栋老师将前馈神经网络FFDNN(Feed Forward Deep Neural Network)引入到声学模型建模中,将FFDNN的输出层概率用于替换之前GMM-HMM中使用GMM计算的输出概率,引领了DNN-HMM混合系统的风潮。长短时记忆网络(LSTM,LongShort Term Memory)可以说是目前语音识别应用最广泛的一种结构,这种网络能够对语音的长时相关性进行建模,从而提高识别正确率。双向LSTM网络可以获得更好的性能,但同时也存在训练复杂度高、解码时延高的问题,尤其在工业界的实时识别系统中很难应用。

在过去的几年中,语音识别取得了很大的突破。IBM、微软、百度等多家机构相继推出了自己的Deep CNN模型,提升了语音识别的准确率。Residual/Highway网络的提出使我们可以把神经网络训练的更深。

1、百度将Deep CNN应用于语音识别研究,使用了VGGNet,以及包含Residual连接的深层CNN等结构,并将LSTM和CTC的端对端语音识别技术相结合,使得识别错误率相对下降了10%(原错误率的90%)以上。

2、2015年,IBM Watson公布了英语会话语音识别领域的一个重大里程碑:系统在非常流行的评测基准Switchboard数据库中取得了8%的词错率(WER)。到了2016年5月份,IBM Watson团队再次宣布在同样的任务中他们的系统创造了6.9%的词错率新纪录,其解码部分采用的是HMM,语言模型采用的是启发性的神经网络语言模型。声学模型主要包含三个不同的模型,分别是带有maxout激活的循环神经网络、3*3卷积核的深度卷积神经网络、双向长短期记忆网络。

3、2016年的10月,微软人工智能与研究部门的团队报告出他们的语音识别系统,实现了和专业速录员相当甚至更低的词错率(WER),达到了5.9%。这意味着,一台计算机在识别对话中的词上第一次能和人类做得一样好。系统性地使用了卷积和LSTM神经网络,并结合了一个全新的空间平滑方法(spatial smoothing method)和 lattice-free MMI声学训练。

4、从近几年google在各类会议上的文章可以看出,google尝试deep CNN的路径主要采用多种方法和模型融合,如Network-in-Network(NiN),Batch Normalization(BN),Convolutional LSTM(ConvLSTM)方法的融合[9]

5、2016年,在提出前馈型序列记忆网络FSMN(Feed-forward Sequential Memory Network)的新框架后,科大讯飞又提出了一种名为深度全序列卷积神经网络(Deep Fully Convolutional Neural Network,DFCNN)的语音识别框架,使用大量的卷积层直接对整句语音信号进行建模,更好地表达了语音的长时相关性。

由于CNN本身卷积在频域上的平移不变性,同时VGG、残差网络等深度CNN网络的提出,给CNN带了新的新的发展,使CNN成为近两年语音识别最火的方向之一。用法也从最初的2-3层浅层网络发展到10层以上的深层网络,从HMM-CNN框架到端到端CTC框架,各个公司也在deep CNN的应用上取得了令人瞩目的成绩。

但CNN也有局限性,研究表明,卷积神经网络在训练集或者数据差异性较小的任务上帮助最大,对于其他大多数任务,相对词错误率的下降一般只在2%到3%的范围内[10,11]。不管怎么说,CNN作为语音识别重要的分支之一,都有着极大的研究价值。

另外,有关抗噪声技术的研究以及实际环境下的语音信号处理系统的开发,在国内、外作为语音信号处理的非常重要的研究课题,已经做了大量的研究工作,取得了丰硕的研究成果。目前,国内外的研究成果大体分为三类解决方法:一类是采用语音增强算法[12];第二类方法是寻找稳健的语音特征;第三类方法是基于模型参数适应化的噪声补偿算法。然而,解决噪声问题的根本方法是实现噪声和语音的自动分离[13],尽管人们很早就有这种愿望,但由于技术的难度,这方面的研究进展很小。近年来, 随着声场景分析技术和盲分离技术的研究发展,利用这些领域的研究成果进行语音和噪声分离的研究取得了一些进展。

三、理论方法技术

本次课题中所涉及到的语谱图是一种在语音分析以及语音合成中具有重要实用价值的时频图,能反映出语音信号动态频谱特征,被认定是语音信号的可视语言。横坐标代表时间大小,纵坐标代表频率大小,时间和频率所对应的像素点的值表示能量值的大小。这种方法容易区分语音信号中的有用声段和噪声声段。

研究语谱图的主要理论方法就是傅立叶分析和短时傅里叶分析以及快速傅里叶变换。语音信号可以假定在10~30ms这样的短时间段内是平稳的,现假设在某一时刻附近的15ms内语音信号是平稳的,那么就可以应用稳态分析的方法来处理该段非平稳的音频信号。具体可以概括为:首先根据原始音频信号长度来进行适当分帧,接着使用窗函数进行加窗处理,对加窗以后达到的每一帧音频信号进行快速傅里叶变换,根据傅里叶变换的系数计算相应时间和相应频率点上的信号能量,再将该能量进行分贝表示并且归一化,最后再对以上得到的数据矩阵进行伪彩色映射得到语音信号的语谱图[14]

对于数字信号特征分析的研究离不开语谱图,而语音信号处理的工作选取MATLAB平台最为合适。

MAT-LAB是一种科学计算软件,专门以矩阵的形式处理数据。MATLAB的数据分析和处理功能非常强大,可以用它来对语音信号进行分析、处理。MATLAB将高性能的数值计算和可视化集成在一起,并提供了大量的内置函数,在编程效率、程序可读性、可移植性和可扩充性上,MATLAB远远优于其它的高级编程语言,而且编程易学、直观,代码容易符合人们的思维习惯,相比较其他编程语言,更加简洁直观,具有很大优势[15]

四、参考文献

[1] 韩纪庆,张磊,郑铁然.语音信号处理(第二版)[M].北京:清华大学出版社,2013: 1-20.

[2] 赵力.语音信号处理(第3版)[M].北京:机械工业出版社,2016: 1-20.

[3] 吕士楠,初敏,许洁萍等.汉语语音合成原理和技术 [M] .北京:科学出版社,2012: 1-20.

[4] 朱晓农.语音学[M] .北京:商务印书馆,2010: 1-20.

[5] 周同春.汉语语音学 [M] .北京:北京师范大学出版社,2003: 1-20.

[6] 游大涛. 基于听觉机理的鲁棒特征提取及在说话人识别中的应用[D]. 哈尔滨:哈尔滨工业大学,2013:

[7] 胡航.现代语音信号处理[M]. 北京:电子工业出版社,2014: 1-20.

[8] 张雄伟,陈亮,杨吉斌.现代语音处理技术及应用[M].北京:机械工业出版社,2009: 1-20.

[9] Zhang Y, Chan W, Jaitly N. Very deep convolutional networks for end-to-end speech recognition[A]. In: 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) [C]. New Orleans: IEEE, 2017: 4845-4849.

[10] Bhaykar M, Yadav J, Rao K S. Speaker dependent, speaker independent and cross language emotion recognition from Speech using GMM and HMM [A]. In: 2013 national conference on communications(NCC) [C]. New Delhi: IEEE, 2013: 1-5.

[11] Sainath T N, Mohamed A, Kingsbury B, et al. Deep convolutional neural networks for LVCSR[A].In :2013 IEEE international conference on acoustics, Speech and signal processing [C]. Vancouver:IEEE, 2013: 8614-8618.

[12] Miyazaki.R, Saruwatari.H, Inoue.T, et al. Musical-Noise-Free Speech Enhancement Based on Optimized Iterative Spectral Subtraction[J].IEEE Transactions on Audio, Speech ,and Language Processing,2012.20(7), 2080-2094.

[13] Yipeng Li, John Woodruff and DeLiang Wang. Monaural Musical Sound Separation Based on Pitch and Common Amplitude Modulation[J]. IEEE Transactions on Audio, Speech, and Language Processing,2009,17(7):1361-1371.

[14] 杨春风, 张贵仓. 语谱图在音频数字水印中的应用[J]. 科技信息,2009,25(05):412-418.

[15] 张雪英.数字语音处理及MATLAB实现[M] .北京:电子工业出版社,2010:1-10.

[16] Yuxuan Wang, Kun Han, DeLiang Wang. Exploring Monaural Features for Classification-Based Speech Segregation[J]. IEEE Transactions on Audio, Speech, and Language Processing. 2013,21(2):270-279.

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。