- 文献综述(或调研报告):
根据文本摘要研究可以把文本摘要方法根据以下五个特征进行分类:输入、目的、输出、方法和评估策略。
2.1 输入
根据输入的医学文献类型可以分为单文档输入和多文档输入或生物医学文献摘要和电子病历摘要等。单文档摘要是根据一篇文献生成摘要,而多文档摘要根据多篇文档生成摘要。在生物医学领域需要进行文本摘要的主要是文献和电子病历(electronic health record),文献与电子病历的组织结构是不同的,因此分为两类。电子病历是半结构化文本,对其进行自动摘要的需求不是很迫切,文献[2]描述了8种电子病历自动摘要的方法。大多数方法是对生物医学文献进行摘要的。
2.2 目的
摘要生成的目的分为用户导向型摘要和通用型摘要。文献[3]给出了一种可以针对医生和非专业用户定制摘要结果的方法,根据医生需求或病人的电子病历给出更符合用户需求的摘要。而通用型摘要相对用户导向型简单,只需要总结文本内容。也可以划分为广义摘要和临床医学摘要,广义摘要用于支持所有医学研究和病人护理等,而临床医学摘要专注于临床医学研究。
2.3 输出
根据输出内容可以分为抽取型摘要和抽象型摘要。抽取型摘要抽取原文本中的内容作为结果,而抽象型摘要从原文推断出相关内容。另一种分类方式是指示型摘要和信息型摘要:指示型摘要类似关键字,用户需要根据摘要结果从原文中检索信息;信息型摘要包括足够的信息,以便用户不需要访问原始输入文本。
2.4 方法
当前的文本摘要方法主要分为四种:统计学,自然语言处理,机器学习和混合型方法。统计学方法通常基于对句子的排序。根据文档中的各种因素为每一个句子计算一个分数。与机器学习不同的是,分数计算公式是人工根据句子中的特征进行设计的。自然语言处理方法是指使用完全文本处理方法的文本摘要技术,例如文献[4]中的方法是抽取语义相关性最高的句子作为摘要的内容。与之相对的是完全使用机器学习方法的文本摘要方法,文献[5]使用的是监督学习方法根据特征向量抽取重要的句子。文献[6]总结了近年来的基于朴素贝叶斯的自动文本摘要方法,并给出一种较为优秀的文本摘要方法。近年来很多文本抽取方法都使用混合方法进行文本摘要,例如Plaza[7]结合自然语言处理和机器学习方法提取摘要,根据UMLS系统提出的概念和关系构建一个语义网,然后使用聚类算法是被文本中的不同主题,获得构成摘要的句子。
2.5 评估策略
文本摘要结果的评估可以分为内部评价方法和外部评价方法。内部评价通常由人工制定黄金标准与测试结果进行比较。外部评估是讨论该方法在特定的信息检索任务中的表现,例如成功率、时间复杂度等等。两种方法的区别在于对结果的评价是否与摘要的目的相关。
内在评估主要是通过测量两个指标进行的:一致性(coherence)和信息性(informativeness),一致性指文本的可读性和内聚性,信息性指结果与原文本的相关性。常用的评估指标是ROUGE[8],将自动摘要与一个或多个人工摘要进行对比,使用n-gram估计他们之间共有的内容。自动摘要与模型摘要之间共享的内容越多,摘要效果越好。一个ROUGE矩阵包括ROUGE-1,ROUGE-2,ROUGE-W-1.2和ROUGE-SU4,ROUGE-N中N表示的是n-gram的长度。考虑到连续匹配,R-W-1.2计算的是最长公共子序列,R-SU4评估的是具有不大于四个单词的间隔的单词对的数量。ROUGE未考虑文本的一致性,只评估摘要的内容,其缺点是考虑词法匹配而不是语义匹配。
3. UMLS
UMLS(Unified Medical Language System)是与生物医学有关的受控词表的集合,其中包含可用于自然语言处理的各种信息。它由三个主要组成部分组成:专家词汇,Metathesaurus和语义网络。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。