医学文本匹配方法的设计与实现文献综述

 2022-09-20 11:05:34

文献综述(或调研报告):

通过对15篇文献的阅读以及导师的指导,对现有的医学文本匹配(文本相似度)方法做出如下综述:

  1. UMLS

首先介绍一下统一医学语言系统(UMLS)。1986年初,美国国家医学图书馆开始着手一个长期的研发计划,即制定统一医学语言系统这一卫生信息标准。开始,主要是基于“及时检索正确而新颖的信息,将有助于决策的制定,并能提升研究及病人看护品质”的假设。由于生物医学信息不断大量地增加且分散于不同的数据库系统中,想要检索完整而新颖的信息变得越来越困难,故UMLS应运而生。UMLS目的在于提升信息系统能力,使信息系统能了解读者在生物医学方面的问题及意愿,进而帮助读者检索及整合相关信息。UMLS着重解决两个影响有效检索的问题:一是概念经由不同的人或在不同的数据库中可能会有不同的表达方式;二是数据库系统分散所造成的检索不完整的问题。UMLS试图在读者问题与资料来源问建立概念上的联结。

当下已经存在许多用于确定医学概念对之间的语义相似性的计算措施。这些都是基于UMLS的,它们测量UMLS中概念之间的语义相似性。

  1. 基于字符串匹配的句子相似性

这是现有的文本匹配方法里面最简单的一类方法。这种方法是基于字符串的,用于衡量句子,字符或单词级别的相似性。这里考虑以下5中方法:余弦相似度,块(或曼哈顿)距离,q-gram相似度,Jaccard相似度,Levenshtein距离。[13-14]

    1. 块距离

块距离(Krause,1987),也称为曼哈顿距离,通过对相应分量的差异求和来计算两点之间的距离。 在n维空间中的点Afrac14;(A1,A2,...,An)与点Bfrac14;(B1,B2,...,Bn)之间的块距离的等式是:

(1)

如公式(1)在这里,Ai指的是句子A中i的计数,而Bi指的是句子B中i的计数。

    1. q-gram相似度

实现基于q-gram的基本过滤器,并构成过滤器组合模型,用来过滤掉不匹配的字符串,得到候选集。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。