网络应用流量的识别算法设计与实现文献综述

 2022-11-27 03:11

文 献 综 述

1 课题的背景与意义

在过去几年中,识别互联网流量的特征已成为电信网络中一个主要的挑战性问题,它依赖于对互联网流量的构成和动态的深入理解,这对于ISP(互联网服务提供商)网络的管理和监督至关重要。此外,宽带连接提供的容量和可用性的增加导致典型用户的行为更加复杂,这与传统的拨号用户非常不同,另外随着互联网应用技术的发展,特别是内容搜索、黑客攻击等技术的发展,互联网中机器人产生的流量逐步逼近甚至超过了人类用户所产生的流量,这样一种日新月异的发展态势,特别是应用行为和应用流量的快速变迁[1],给互联网的网络管理、安全保障和服务质量提供等带来了严峻的挑战,为了更好地了解用户网络利用率,必须对生成用户流量的网络应用程序类型进行调查和分类。

2 研究现状

互联网流量识别技术主要有三种:基于端口的流量识别、深度包检测流量识别、基于机器学习的流量识别。

2.1基于端口的流量识别

传统网络环境下,因为各种网络和协议都遵循传统的约定俗成的规则,使用0-1023的周知端口,例如基于HTTP协议的Web应用使用的端口是80,基于HTTPs的Web应用使用端口为443,FTP协议代理的服务器常用端口号为20、21等等,所以基于端口号进行流量识别不是复杂的事情,这种技术简单直观,易于实现,不需要额外的软硬件支持,但是互联网不断发展,网络中大量应用开始使用动态端口而不是使用固定端口,并且新型网络应用(例P2P)都采用随机端口(端口号1024-65535)传输数据,防火墙技术的发展也导致大量互联网应用使用端口伪装技术躲避防火墙的检测,以上均导致了仅基于端口号的流量识别准确率很低[2][3]。Moore 等[4]通过实验发现,现在基于端口的流量识别分类在最佳情况下也仅有 31%的准确率。

2.2深度包检测(Deep Packet Inspection DPI)流量识别

DPI是利用数据包的载荷部分所携带的信息进行流量分类,基于DPI流量分类技术依据特定的协议或应用的特征码,通过对网络流量中的载荷数据进行特征码匹配,获取流量的分配。W. Moore等[5]文章提出的方法可以看作是一个迭代过程,其目标是十分准确地得到特定流量的相应应用程序。第一步是根据数据包的五元组将数据包聚合成流,当为 TCP 网络数据流时,额外的语义也可以用来标识流程的开始和结束时间。第二步是根据不同的标准迭代测试流特性,直到获得十分确定的有关应用程序标识。2003 年,Christian Dewes[6]在文章中提出将聊天流量与其他互联网流量分开的方法,先大量收集满足一些一般标准的所有网络流量,然后保留所有与本文对分析得出的特征值相匹配的流。2004 年,Subhabrata Sen等[7]利用可用文档和数据包级别的跟踪识别应用程序签名,并利用已识别的签名准确跟踪P2P流量。

DPI技术准确率高,对绝大部分网络流量都有效。但其需要读取数据包载荷部分,侵犯了客户隐私,当载荷部分进行加密时,DPI技术将失去作用,随着电子商务的发展,目前主流客户端均采用了载荷加密技术,使得DPI技术准确率降低,同时当网络应用的特征值改变时,系统要及时更新特征值列表,这带来了额外的复杂度和代价。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。