基于多元异构文档的文本分类技术研究文献综述

 2022-10-29 08:10

文献综述(或调研报告):

文本分类是指根据文本内容,将文本、文档划分为若干个预先定义好的类别组。20世纪90年代以前,主要运用的文本分类方法是基于知识工程的分类方法,这是由专业人员进行手工分类。但是这样的手工分类无疑是非常费时的,而且其效率非常低。90年代以来,众多的统计方法和机器学习方法应用于自动文本分类,由机器来代替人工完成。而且多种不同的文本分类技术的研究与改进引起了研究人员的极大兴趣。目前在国内也已经开始对中文文本分类进行研究,并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用。

文档分类通常是一个有指导的学习过程。它根据一个己经被标注文档类型的训练文档集,通过算法来构建文档特征与其类别之间的关系模型,再利用这种学习得到的关系模型对新的文档进行分类。文本分类技术主要由文件的预处理、特征提取、分类器构建、分类效果评估组成。

相比于英文文本分类,中文文本分类的一个重要的差别在于预处理阶段:对于中文来说,不像英文文本的单词那样有空格来区分。所以在这个处理过程中需要依赖分词技术。从以往简单的查词典方法,到后来的基于统计语言模型的分词方法,中文分词的技术已趋于成熟。目前成熟的中文分词系统有ICTCLAS,FudanNLP,JieBa等。分词软件的准确率也越来越高,但是目前就来说,分词软件对专业术语的识别率存在一些问题。比如“中央财政科技计划”,分词会将其拆分为“中央/财政/科技/计划”,那么如何将这些专有名词作为一个完整的词识别不出来不进行拆分呢?还有很多技术需要解决,目前,为了提高分词的准确性,通常在词库中添加专业词表(用户词典)来保证其准确性。

在文档特征选择之前,需要对文本集进行一些处理,过滤掉无用的信息。滤除这些没有作用的词语不但可以减少文本特征向量的维数,而且还能减少了许多不必要的运算。有以下几种常见的方法:

  1. 去掉一些低频词,比如说某些单词只在一两个文本中出现过,那么这些词如果在特征向量集合中,会导致大部分的文档该属性值为0,这样就没有什么意义了,故可以删去。
  2. 去掉停用词,这种词在文档分类中没有携带任何有用的信息,如“的”,“了”,“啊”等,以及像一些“因此”,“所以”等这一类词反映的是句子语法的结构,并不能给文档的分类提供帮助,还有标点符号等,对文档分类无意义,所以该将这些词去掉。
  3. 去掉一些标记性文字等信息,这主要针对网页文本或其他的标记语言文本。
  4. 因为机器并不能和人一样读懂文字,所以需要将文本转成计算机能够识别的一种形 式,这个过程就是文档建模。文档建模比较通用的方法包括布尔模型、向量空间模型(VSM)和概率模型。目前文本表示模型最广泛使用的是由Gerard Salton和McGill于1969年提出的向量空间模型(VSM)。把对文本内容的处理简化为向量空间中的向量运算,将给定的文档转化为特征项的权重为分量的向量表示:(w1,w2,hellip;,wn),其中wi为第i个特征项的权重,通过空间上的相似度表达语义的相似度。通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。假设用户给定的文档向量为d,未知的文档向量为q,两者的相似程度可用两向量的夹角余弦来度量,夹角越小说明相似度越高。相似度的计算公式如下:

在特征集中一般要经过在特征选择(特征抽取)过程,目前大多数文本分类中一般是用“词”作为每个特征项,这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算,但是如果将所有的词都作为特征词,这显然是不可能的,特征向量的维数过大,这就对分类器的运算性能有了很大的影响。所以将有用的特征词提取出来,有用的特征向量降维方法是有必要的,这不仅大大降低了运算速度还提高了分类器文档分类的速度和准确度。

特征选择的主要功能就是在不损伤核心信息的情况下降低向量空间维数,简化计算,提高文本处理的速度和效率。相对于其他分类问题,文本特征选择的方式常见的有4种:

  1. 用映射或变换的方法把原始特征变换为较少的新特征。
  2. 从原始特征中挑选出一些最具代表性的特征。
  3. 根据专家的知识挑选最有影响的特征。
  4. 基于数学方法进行选取,找出最具分类信息的特征。

一般来说基于数学方法进行选取比较准确可靠,因为其人为干扰因素少,适合于文本分类。这种基于数学的特征选择是通过构造评估函数来对特征集合中的每个特征进行评估,打分,这样每个特征词都会有一个评估值,即权值,依次按照评估值的大小对特征词进行排序,提取出预定数目的做有效的特征词作为特征集用于接下来的分类操作。决定文本特征提取效果的主要因素是评估函数的质量。

在文本分类中,常用的特征选择方法有基于阈值的统计方法,如TF-IDF, 词频法,文档频次法(DF) ,互信息方法(MI) ,期望交叉熵(Expected Cross Entropy),二次信息熵(QEMI), 信息增益方法(Information Gain,IG), 统计量方法,文本证据权(The Weight of Evidence for Text),,优势率(Odds Ratio),遗传算法(Genetic Algorithm, GA),主成分分析法(Principal Component Analysis,PCA),模拟退火算法(Simulating Anneal,SA), N—Gram算法等。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。