基于神经网络的古典音乐旋律识别自动转录技术文献综述

 2022-11-24 10:11

乐谱是音乐的载体,它以固定格式和符号表示整首乐曲的信息。随着计算机发展和音频采集等相关技术的进步,出现了自动音乐转录技术(Automated Music Transcription,以下简称AMT)。该技术可简述为输入音频文件,经过对波形的分析处理从而得到谱面信息的输出[1]。

前人在该技术领域中已做出了诸多贡献,例如Alain de Cheveigneacute;和Hideki Kawahara提出的用于估算音高的YIN算法[2]、Brown J C提出的有效减小倍音误差的变采样技术[3~5]、李强等提出的一种改进的基于音高的显著性的旋律提取算法[6]、Poliner 和Ellis提出的给予分类器的旋律抄录方法[7]、杨靖等提出的使用离散谐波变换并给予谐波结构的音色特征提取[8]等。经研究与分析后发现,前人的工作主要通过对音频信号的技术处理来解决问题,解决方案集中在单声部乐器音乐。但是在多乐器音乐(例如重奏曲,协奏曲和交响乐等)以及多声部单乐器音乐(例如钢琴曲)(以下将此类音乐统称为复调音乐)的音高判断、节奏划分和旋律识别等方面的AMT技术仍留有空白,且相应正确率难以满足实际需要。

与此同时,深度学习等机器学习方法在音乐标签、音乐自动生成和乐器识别等方面有所应用,例如寒凝等使用深度学习网络为音乐进行自动标注[9],薛韩钰等使用递归神经网络自动作曲[10],王芳等基于深度学习对音乐流派及中国传统乐器进行识别分类[11]、王飞等使用深度学习识别和分类乐器[12]。但是深度学习在AMT的其他技术方面的应用有较多空白,尤其是复在调音乐方面的应用。综上,机器学习等方法有潜力成为AMT技术的突破点[13]。

于此同时,由于相关领域的专家较少涉及音乐领域,基于人对音乐的感知特点对音乐转录的研究也有较多空白。本课题将致力于使用机器学习,辅助以音频信号处理的方法解决问题,与AMT技术领域相衔接,从而形成具有该领域突破性的方案。上述的复调音乐区别于音乐术语中描述音乐风格的复调音乐,在此处专指含有至少两条旋律,允许来自多个不同声源的多个音符同时发声的多声部音乐。

乐器识别对于在每个时间范围内预测多乐器音乐中乐器的存在还很少进行。此任务不仅对自动转录非常重要,而且对许多检索问题也很重要。模式识别问题的进展通常很大程度上取决于用于模型训练的高质量标记数据的可用性。 例如,在计算机视觉中,ImageNet数据集[11]的发布以及用于训练深度神经网络的算法的进步,推动了图像级目标识别的显着进步。 其他数据集的后续可用性,例如COCO数据集,提供了出现在图像中的对象的边界框或像素级别的注释,从而促进了对图像中对象的定位,语义分割和实例分割的研究。从图像级到像素级的这种预测为计算机视觉开辟了许多令人兴奋的新应用。

类似地,对于许多与音乐相关的应用,期望不仅具有片段级别而且具有帧级别的预测。例如,诸如音乐作曲家之类的专家用户可能想要搜索具有某些属性的音乐,并要求系统不仅返回歌曲列表,而且还指示具有这些属性的歌曲的时间间隔。音乐标签的帧级预测可用于可视化和音乐理解。在自动音乐转录中,我们想知道每帧活跃的音符,并想出弹奏每个音符的乐器。声音检测和吉他独奏检测是另外两个需要帧级预测的示例。

前述的许多应用与声源的分类或乐器的分类有关。但是,由于在每个时间范围内在多乐器音乐中标记乐器的存在是费力且费时的,因此大多数有关乐器分类的工作都使用了独奏乐器录音的数据集(例如,ParisTech数据集),或仅具有剪辑或摘要级别注释的数据集(例如IRMAS数据集)。尽管仍然可以训练从这些数据集中执行帧级仪器预测的模型,但由于缺少帧级注释,因此难以评估结果。

我计划构建一个卷积神经网络,以利用钢琴音乐中出现的频域对称性。模型从由11个副本组成,前馈神经网络经过训练以检测8个特定音符的发声,在钢琴键盘上显示的88个音符中均等分布。通过将前馈网络反复应用到不同的频率窗口,可以检测出整个音符的发音。以这种方式,我们假设通过简单地以半步长的间隔移动频率,就可以将相同的检测器用于11个相邻的音符。这将大大改善了培训时间和测试性能。数据报告我们使用CQT频谱图作为主要的时频表示。为了捕获每种乐器的音色特征,在我们的基本模型中,我们使用CQT作为音乐音频的特征表示。 CQT是一种具有音乐和感性动机的频率标度的频谱表示。我们通过librosa计算CQT,采样率为44,100,窗口大小为512个样本。对于每个输入的3秒音频段,以每个八度音阶12个仓提取88个频率音符,其形成矩阵Xisin;R^(258times;88)作为输入数据。

我们用两个基线模型进行实验。第一个是根据Liu和Yang [31]提出的CNN模型改编的,该模型已被证明对音乐自动标记有效。与其像以前那样使用6个特征图作为模型的输入,不如使用CQT作为输入。此外,我们在训练网络时将帧级注释用作监督信号,而不是像他们那样以弱监督的方式训练模型。在每个卷积层之后添加批处理归一化层

我们的神经网络的体系结构可以简化为前馈神经网络,该神经网络具有两个隐藏的1024和256个神经元隐藏层,并具有软信号激活功能。这样,通过在不同频率窗口上运行11个前馈网络副本,可以将这8个音符的检测器扩展到整个88音符键盘。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。