卷积神经网络加速方法的研究文献综述

 2022-09-26 05:09

文献综述(或调研报告):

深度学习加速器(DLA,Deep Learning Accelerator)领域的相关工作大体上可以分为软件算法与硬件两个方面。

软件算法方面,相关研究主要集中在三个方面:参数去冗余、权重的量化、网络结构优化。

Han Song 等人[1]提出一种名为“深度压缩”的模型压缩方法。该方法通过三个步骤来解决神经网络模型中的参数冗余问题。首先,作者通过训练深度神经网络模型来获取神经元与神经元之间的连接重要程度。然后,对神经网络进行修剪,将重要程度较低的神经元连接删除并保留重要度较高的连接。最后,对修剪过的神经网络模型进行微调,重新训练重要程度较高的神经元连接。针对该种策略,Han Song 等人还做了进一步拓展研究,即通过聚类算法和哈夫曼编码算法将VGG 模型和 AlexNet 模型所需的存储空间大小分别降低至原有模型的 1/35 和 1/49。

在上述工作的基础之上,Han等人还提出了一个高效的推理引擎(EIE)[2],在压缩的稀疏神经网络模型上直接推理的硬件架构体系。在该架构下,权值采用压缩稀疏列(CSC)格式存储,在计算时,则向各个处理单元(PE)广播相应的非零权重。实验结果表明,该引擎与GPU相比,在速度方面提升13倍而在能耗方面降低3000倍。

Zhang X等人[3]提出一种响应重建的方法,并将非线性神经元和低秩约束考虑在内。针对神经元的非线性问题,作者使用广义奇异值分解的方法以进行非对称重建,在不使用SGD的情况下有效地减少了累计误差。

针对现有的批次标准化,Salimans T等人[4]提出一种对权重参数进行标准化的方法,并且在图片识别、生成模型及深度强化学习三方面做了实验。实验结果表明,权重标准化相较于批次标准化,在训练阶段利用SGD优化算法时,重参数加速了网络的收敛速度;并且在生成模型实验中,相较于其他参数化手段,权重标准化带来的加速效果更为明显。

对于硬件方面,相关研究主要集中在两个方面:减少所需的内存带宽、提高并行度。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。