短文本相似性度量方法研究与应用文献综述

 2022-11-24 10:11

在数据挖掘、机器翻译、舆情分析和文献检索等方面,短文本语义相似度的计算发挥着巨大的作用。短文本是相对于长文本而言的,主要包括词、词组、句子和句子群。由文献[1]可知,长度不超过200个字符的可归为短文本。根据Gomma等[2]的分类框架,将文本相似度计算方法分为4大类: 基于字符串(String-based)的方法、基于语料库(Corpus-based)的方法、基于知识(Knowledge-based)的方法和混合方法。基于字符串的方法也称作字面匹配相似度计算方法,其中较为经典的方法包括最长公共子串(Longest Common Substring, LCS)、编辑距离、Jaccard等。由于基于字符串的方法没有考虑文本的语义信息,效果受到一定限制。为解决这一问题,学者们开始对语义相似度方法展开研究,包括基于语料库的方法、基于知识的方法和混合方法。

基于字面匹配的相似性度量只是单纯从词形计算文本的相似度,而不考虑内容的含义。通常基于字面匹配的度量会输出一个距离,该距离指示两个文本的相异程度,距离越大,说明两个文本的相似性越小。在不同的文献中,基于字面匹配的相似度计算分类也稍有差别:Gomma等人[2]将基于字符串的度量分为基于字符的(character-based)和基于术语的(term-based)。文献[3]将基于字符串的度量分为两类:字符级别(character-level)、标记级别(token-level)以及两种结合(soft measures)。字符级别(character-level)包括Hamming距离、jaro距离、jaro-winkler距离、LevenShtein距离、最长公共子串LCS等度量方法;标记级别(token-level)则包括余弦距离、欧式距离、曼哈顿距离、Dice系数、Simpson等度量方法,其中一类文本相似度量方法分析每个词在文本中出现的次数以及在整个文本中出现的次数,进而利用这些词频信息将文本建模为一个向量,并利用向量间的余弦距离、欧式距离或曼哈顿距离等算法计算文本之间的相似度。另一类度量方法采用了集合思想,将字符串看作由词语构成的集合, 词语共现可用集合的交集计算,如Dice系数、Jaccard系数、Braun- Banquet、Simpson指数等。

基于字面匹配的度量方法是在字面层次上的文本比较,文本表示即为原始文本。该方法原理简单、易于实现,现已成为其他方法的计算基础。但不足的是将字符或词语作为独立的知识单元, 并未考虑词语本身的含义和词语之间的关系。以同义词为例,尽管表达不同,但具有相同的含义,而这类词语的相似度依靠基于字面匹配的方法并不能准确计算。

基于语料库的方法利用从语料库中获取的信息计算文本相似度。这种类型比较经典的方法是潜在语义分析(LSA)[4]。其基本思想是将文本从稀疏的高维词汇空间映射到低维的潜在语义空间,在潜在语义空间计算相似性。LSA应用于句子相似度计算的主要缺点是缺少潜在的重要句法信息,此外LSA对否定词和反义词判断的效果并不好[SyMSS]。与LSA密切相关的另一种方法是超空间语言模拟(HAL)[5],但该方法不太适合计算短文本或句子的语义相似性。20世纪60年代末,Salton等提出了另外一种比较经典的方法-向量空间模型(VSM)[6],其基本思想是将每篇文档表示成一个基于词频或者词频-逆文档频率(Term Frequency-Inverse Document Frequency, TF-IDF)权重的实值向量,那么N篇文档则构成n维实值空间,其中空间的每一维都对应词项,每一篇文档表示该空间下的一个点或者向量,而两个文档的相似度就是两个向量的距离。后有学者对VSM方法进行改进,黄承慧等[7]通过在TF-IDF模型基础上分析文本中重要词汇的语义信息,在F-度量值标准上优于TF-IDF。李琳等[8]对文本进行依存句法分析,提取关键概念词,利用词嵌入方法构造表示文本的向量空间,提高了准确率。Islam和Inkpen [9]提出了另外一种基于语料库的方法STS,该方法使用三个相似度函数来计算两个文本的相似度:单词之间的字符串相似度方法,单词之间的语义相似度以及共同词序相似度。

基于知识的方法是指利用具有规范组织体系的知识库计算文本相似度,一般分为两种: 基于本体知识和基于网络知识。基于本体知识的方法是利用包含语义知识或百科知识的本体词典或百科全书计算文本之间的语义相似性。常用的本体词典包括Word Net、《知网》 (How Net)和《同义词词林》[10]等。由于本体中词语数量的限制,有些学者开始转向基于网络知识方法的研究,原因是后者覆盖范围广泛、富含丰富的语义信息、更新速度相对较快,使用最多的网络知识是维基百科、百度百科。

还有一些混合方法同时使用基于语料库和基于知识的技术,其中表现最佳的是Li等人提出的方法[11],该方法通过基于比较句子中的单词形成单词向量来克服这两种技术的局限性。然后,该方法通过组合从结构化词汇数据库和语料统计中得出的信息来计算语义相似度。Mihalcea等[12]提出了一种组合的无监督方法,该方法使用了六种基于WordNet的度量和两种基于语料库的度量。Song等[13]将扩展显示语义分析(ESA)表示和word2vec表示结合起来,以生成更密集的向量表示,从而在短文本之间提供更好的相似性度量。赵谦等[1]为了提高短文本语义相似度计算的准确率,提出了一种基于语义与句法结构的短文本相似度计算方法。同时基于语义和句法结构的度量还有SyMSS方法[14],该方法基于这样的概念,即句子的含义不仅由其中各个单词的含义组成,而且还由单词组合的结构方式组成,SyMSS捕捉并组合了句法和语义信息来计算两个句子的语义相似度。

文本相似性度量方法研究已经取得诸多成果。国外学者首先提出文本相似性度量方法,国内学者基于国外研究进行了大量改进。本文纵观文本相似度计算方法的发展情况,对经典和新型算法进行了系统阐述和比较。通过分析,可以看出文本相似性度量的发展经历了基于字面到语义判断的过程。基于当前研究成果,未来文本相似性度量的研究可以从以下三方面考虑[15]:

(1) 基于神经网络的方法研究将更加丰富。由于词向量表示文本,所表达的文本语义信息更符合人类认知。随着人工智能浪潮的到来,神经网络算法将得到不断改进, 基于神经网络的文本相似性度量方法也会更加丰富。

(2) 网络资源为文本相似度计算方法研究提供更多支持。网络资源无疑是最大、最丰富的语料库,与此同时语义网和关联数据进一步发展,网络文本资源面向结构化与互连化,所以新型的信息组织结构与信息之间的链接方式将应用到文本相似性度量之中。

(3) 针对特定领域以及跨领域文本的相似度计算将成为今后发展的重点。跨学科合作越来越趋于常态化,领域专家的合作促进跨领域世界知识的集成并为跨领域文本的相似性度量提供便捷的人工参与和建议。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。