基于流聚类技术的恶意流量识别系统的设计与实现文献综述

 2022-08-12 11:08

一、文献综述

(一)国内外研究现状

当前已有很多基于流聚类技术的恶意流量识别研究,但是各个领域产生的数据数量迅速增大、数据类型复杂多样等诸多新情况的出现对入侵检测的研究带来了新的挑战。当前网络环境下的数据流呈现出海量、高速、无限、动态变化等特性,在流聚类技术的恶意流量识别中,不仅需要及时发现数据流中的恶意流量数据,还需要根据数据的变化及时发现新模式,并更新识别模型,提高识别的准确率。

国外对于流技术结合入侵检测方面的研究较早,Muhammad等人在文献[1]中已经将流技术和入侵检测系统相结合,已减少分析完整数据包的成本;Sriram等人也在文献[3]中将物联网的僵尸网络检测于流技术相结合。而由于流技术带来的高维特征挑战,Chen等人在文献[2]中构建Fisher分数和基于图的特征提取模型;Ratti等人在文献[4]中则是使用信息论中的信息熵这一概念,通过离散化数据,并基于熵进行数据降维;Arestrouml;m和Carlsson则是在文献[5]中使用主成分分析对特征进行降维。

国内当前对于流技术的研究也有较大的开展。目前国内已经将流技术和数据挖掘、深度学习以及机器学习方面相结合,夏莲在文献[6]中将机器学习中的聚类模型和流技术相结合;李子璇在文献[7]则是根据流技术而产生的CluStream 算法提出了HWFStream 数据流聚类算法;朱佳佳等人则在文献[9]将SVM运用在流技术中,使用SVM构建基于流特征的分类器;传统的机器学习方法在恶意流量识别中取得的效果非常明显,但是同时也具有局限性。由于传统机器学习技术需要人为的构建样本特征,因此其性能的好坏具有依赖性。为了解决这个问题,研究者们引入了深度学习技术。文献[10]中,石乐义等人将信息熵和深度学习结合,分别运用卷积神经网络(CNN)和双向长短期记忆神经网络(BiLSTM)从时间和空间维度提取数据特征,通过多头注意力机制进行特征融合,进而得出最终检测结果。

(二)研究主要成果

国外对于基于流聚类技术的网络流量分析的研究起步较早,Muhammad等人在文献[1]中提供了基于流技术的入侵检测系统,该文章仅检查数据包头,而不分析数据包有效负载,大大加快了检测速度。文献[2]中,Chen等人提出了一种基于流的网络流量数据预处理方法,通过构建Fisher分数和基于图的特征提取模型,从高阶特征中提取重要特征;在此基础上,提出了基于模糊熵加权k近邻数据分类方法的网络流量攻击检测模型。首先Chen等人利用模糊熵值确定类别样本的特征权重;然后根据样本间的亲和力计算样本的隶属度,根据类条件加权欧氏距离选择k近邻;最后根据各类别样本的模糊隶属度对样本进行分类。Sriram等人在文献[3]中对物联网安全的僵尸网络检测提出依赖于网络流量的深度学习的检测体系;Sriram等人提出的僵尸网络攻击检测体系结构以PCAP (packet capture)格式收集连接设备的网络流量快照。此外,它还将流量信息转换为连接记录,并输入至建立好的深度神经网络模型进行训练。文献[4]中,Ratti等人提出使用基于熵的离散化数据方法,来提升入侵检测系统的性能,并分析了特征经过降维后的系统性能。文献[5]中,Arestrouml;m和Carlsson对于网络流量复杂的非线性特征提出了一种基于时间序列数据的多重分形特征提取、基于主成分分析的特征选择和基于中间人的流标记的分类框架。

我国互联网的起步较晚,但随着我国互联网的逐渐普及以及国家对网络安全问题的重视,已经有越来越多的国内院校及科研机构开始加入对流技术的研究。针对高维数据给入侵检测带来的新问题,夏莲在文献[6]中结合增量流形算法和切空间研究了适用于数据流入侵检测的增量特征选择方法,并基于增量聚类能够适应网络数据流环境的动态变化,提出了基于增量层次聚类的数据流入侵检测算法和基于增量模糊密度聚类的数据流入侵检测算法。李子璇在文献[7]中将基于误用的入侵检测技术和基于异常的入侵检测技术相结合,提出了基于数据流挖掘的入侵检测系统框架,并且针对数据流高速到达、高维度和混合属性等特点,依据 CluStream 算法的两阶段聚类思想,提出了 HWFStream 数据流聚类算法。朱佳佳等人则在文献[9]中结合了信息熵理论与 SVM 多分类算法,将异常流量检测问题抽象为对不同类型流量的分类问题,通过分析网络流量特征信息的熵值变化规律来实现网络流量的特征量化,用 SVM 多分类器对熵值量化后的流量进行分类判决。文献[10]中,石乐义等人将信息熵和深度学习结合,通过基于相关信息熵的算法进行特征选择,达到去除噪声数据和冗余特征的目的;然后分别运用卷积神经网络(CNN)和双向长短期记忆神经网络(BiLSTM)从时间和空间维度提取数据特征,通过多头注意力机制进行特征融合,进而得出最终检测结果。针对入侵检测技术仍然面临召回率低和误报率过高的问题,并且多数模型系统结构复杂、效率低,难以适应实时检测和网络访问数据流演化的要求,李艳红等人在文献[11]中,提出了一个基于数据流的网络入侵实时检测框架,在检测过程中,可以根据数据流的动态变化使用聚类的方式更新知识库,从而适应数据流演化的要求。

以此可知,大多数关于流技术的研究将模型分为两个方面:特征选择和异常检测;文献[12]和文献[13]中,刘华文和张振海等人都使用了信息熵实现特征选择,刘华文通过数据聚类的方法对数据特征之间的距离进行度量,从而得到不同特征的信息熵,达到特征选择效果;张振海等人则是使用特征与标签集合之间的信息增益来衡量特征与标签集合之间的重要程度,并据此提出一种信息增益阈值选择方法。在异常检测方面,贾凡和王明等人分别在文献[14]和文献[15]中,使用了卷积神经网络构建深度学习模型,通过训练得到对数据流量的分类器。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。