基于机器学习的邮件文本分类方法文献综述

 2022-10-30 09:10

文献综述:

有很多学者提出了许多种解决垃圾邮件的方法。而通过垃圾邮件分类器的帮助,近十年用户收到的垃圾邮件数量开始慢慢减少。人们在早期为了阻止垃圾邮件而使用的方法是通过发件人的地址、IP 信息和邮件的主题等进行过滤,即基于黑白名单的过滤技术,而这个方法过于简单,没有理想的准确率,并且适应性也不高。邮件的分类技术也在不断的发展之中,无用的邮件有很多特点也变为体现在内容上,所以无用邮件的制造者很容易对黑名单进行躲避。为此研究者们开始通过内容和附件来进行对邮件的判别标注。一种基于规则或匹配的垃圾邮件过滤技术产生了,它有着针对性强,词库便于修改等优点。但是随着大数据时代背景下,垃圾信息的数量极其庞大,规则库或词库也变得极其庞大,导致这种分类器匹配速度越来越慢。

随后为了解决基于内容的垃圾信息分类问题,机器学习理论开始成为最常用的邮件分类技术。该方法从邮件内容获取特征,并根据特征来标注邮件,训练分类器,准确率较高。而国内外更是为了促进垃圾邮件分类技术的发展,存在多个评测机构及专业会议,比较权威的国外的诸如:TREC (Text RetrievalConference)和 CEAS(Conference on Email and Anti-Spam),国内的诸如SEWM(Search Engine and Web Mining)。而这些机构极大地促进了邮件分类技术的发展,积累了权威的评价指标,并且提供了大量的有效数据集。通常情况下,垃圾邮件分类问题是一个典型的二分类问题。而基于机器学习技术的分类器又通常分为两类:生成模型和判别模型,大多情况下判别模型的性能会稍好一些。在早期,有很多国外学者对邮件分类问题做出过突出贡献,Sahami 就曾提出过使用朴素贝叶斯方法进行分类过滤;随后 Graham 又对此进行了改进,着重对基于词的特征选择进行了研究,适合在线学习;Segal 又研究出了一种新型贝叶斯分类器,是基于不确定样本近似方法的;Kim 又研究出根据 URL 链接来判别垃圾邮件的朴素贝叶斯模型;Ciltik 又提出 n-gram匹配的朴素贝叶斯分类器并有效提升了效率。而也有学者采用 SVM 支持向量机模型处理邮件分类问题,还有基于在线学习的方法,起初 Drucker采用此方法;之后 Haider提出了改进方案,基于增量式的 SVM 模型;而 Kanaris首次在 SVM 模型中应用 n-grams 特征提取方法。随后 Godman 研究出使用 LR(逻辑回归)模型来进行邮件分类,该方法简单快速,准确率较高。国内的学者们也对邮件分类技术有着深入的研究。比如在包含图像的邮件分类技术中,曹玉东等学者就提出了一种改进的哈希算法来提高分类器的性能。白宁则针对特征选择的融合提出了一种邮件分类方法。还有在线邮件分类技术中,李洋等学者提出了一种基于 URL 的分类的方法来识别垃圾邮件。张付志等还提出了一种改进的贝叶斯方法。黄国伟等则提出了通过用户反馈的个性化来进行邮件分类。孙劲光等则提出了通过深度置信网的邮件分类方法。翟军昌等提出了一种基于条件熵的方式。杨明明、马英财等则研究了在社交网络中的邮件分类。沈跃伍则着重研究了在线学习的邮件分类技术。

机器学习是人工智能领域中一个非常重要的研究方向,一直以来受到了国内外很多学者的关注。而当前邮件分类中遇到的普遍问题是机器学习算法模型的邮件数据集中没有被标注的邮件样本数量极其多,而比较容易进行标注的邮件样本又非常少并且不容易获得。而主动学习算法(Active Learning)就是通过一定的采样策略选择那些信息含量比较大的、更加重要的邮件样本来进行研究,并交给相关人员进行标注,并通过许多次循环来使邮件分类器的分类错误率慢 慢降低,从而在标记总代价最小的情况下进行加强邮件分类器的泛化能力,主动学习这一技术得到了国内外学者的很多关注。根据调查显示,对于训练数据集的准确标注不但需要大量的人力参与其中,并且需要的标注时间达到其获取时间的10 倍多,而没有被相关人员标注的邮件样本却十分容易获得。如此情况让传统的机器学习分类方法无法有效地发挥应用效果,因为监督学习往往需要数量庞大的具有原始标注类别的邮件数据集来进行训练,不然其泛化能力无法得到持续提高。而反过来看无监督学习方法, 即便能够直接使用没有原始标注的邮件数据,但是算法的分类效果并不高。这样一来,发展出了主动学习方法和半监督学习等算法并且成为能够解决这些难 题的有效技术,得到十分重要的作用。 但是虽然主动学习方法和半监督学习方法都是基于未做标注的邮件样本和标注了的邮件样本来一起建立高性能分类器。但是二者的不同之处在于主动学习算法更加智能,它效仿了人类的学习过程。主动学习方法选择部分被标注的邮件样本放入到训练集当中,不断地迭代来加强邮件分类器的泛化性能而被应用到信息检索和相关分类领域之中。

参考文献:

[1]: 向阳花-语 基于统计概率和机器学习的文本分类技术 博客 http://blog.sina.com.cn/s/blog_3edeaab10100pp0i.html 2011-03-25

[2]: 吴科 基于机器学习的文本分类研究[博士学位论文] 上海交通大学:计算机系 2011-10

[3]: 苏金树、张博锋、徐昕 基于机器学习的文本分类进展 国防科技大学 计算机学院、机电工程与自动化学院 2006-4

[4]:Sebastiani F.Machine learning in automasted text categorization.ACM Computing Suveys, 2002,34(1):1-47

[5]: Liu TY,Yang Y,Wan H,Zhou Q,Gao B,Zeng HJ,Chen Z,Ma WY.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。