基于领域实体的在线健康社区知识聚合研究文献综述

 2022-11-27 03:11
{title}{title}

文献综述

一、知识聚合

“聚合”概念源于化学术语,本意是将分散的单体 小分子 结 构 通 过 链 接 关 系 聚 集 成 大 分 子 结 构 的 过 程。图书情报领域学者也对聚合这一概念进行了深 入的研究,聚合的研究对象从数据逐渐过渡到知识领 域。李亚婷从知识服务过程的角度对知识聚合进行了 定义,在知识服务的过程中,将无序的、分散的知识进 行凝聚,可以发现知识单元间的关联、形成有机的知识 体系。王敬东认为知识聚合是一个知识聚类分析的 过程,对知识聚合后,知识内涵更加丰富,使得决策过 程更有意义。贯君、毕强等认为知识聚合是为了构 建多维又相互关联的知识体系,可以通过数据挖掘、人 工智能等方法提取知识单元以及知识单元之间的内在 关系。李洁认为知识聚合实现的过程包括知识的聚 集与知识的统合,可以通过关联和聚类对海量的信息 资源进行筛选和挖掘,从而得到知识的智能融合。 通过上述定义可以看出,知识聚合是运用数据挖掘、语义技术等人工智能手段和方法,通过分析知识的 特征,将无序的、分散的知识进行重新组织和筛选,进 一步发现知识之间的关联,并形成有机的知识体系,从 而为用户提供具有针对性、完整性、系统性的服务,使 得知识可以被高效利用的过程。针对不同的知识形 态,可以使用不同的聚合方法。目前主流的知识聚合 方法包括基于语义增强的知识聚合方法、多维知识聚 合方法和基于类聚的知识聚合方法。基于语义增强 的聚合方法可以解决知识聚合过程中语义缺失的问 题,一般与概念进行关联,或者使用语义标签。多维知 识聚合方法是利用“用户 - 资源 - 标签”的多维划分 方法进行知识的导航和推荐。Folksonomy 和社会网络 分析是常用的多维知识聚合方法。基于类聚的知识聚 合方法是按照知识关联的程度将知识进行关联和聚 合,例如文本聚类、标签聚类都是常用的聚合方法。

  1. 在线健康社区知识聚合

网络社区知识聚合有其发展起源,按照时间先后 分别呈现出聚合层次逐渐深入( 从信息聚合到知识聚 合) 和聚合场景从特殊到一般( 从馆藏资源知识聚合 延伸到学术型社区知识聚合,再扩展到一般性的网络 社区知识聚合) 的逻辑顺序。研究层次的深入和研究 场景的延展一方面使得面向网络社区开展知识聚合有 其必然性,一方面又为其研究提供了坚实的基础。 张连峰等结合学术社区用户的相关知识需求分 析,建立了融合主题与 SECI 模型的虚拟学术社区知识 聚合整体模型构架。胡媛等基于社区中用户交流行 为与用户需求设计了基于知识聚合的数字图书馆社区 服务推送系统。商宪丽等基于标签共现的方法设 计了学术博客知识资源聚合的方法。K. Liang 等 分析了碎片化学习行为的特点,根据学习者的个体学 习需求重新对在线教育中的知识进行聚合,从而指导 学习者充分利用分散的时间来获得准确、有意义的知 识内容。V. Tarko 等介绍了基于流程的知识聚合和 集成方法,并基于聚合机制设计了依赖于元专家和计 算机算法的聚合系统,以此为基础,为知识聚合提供了 工具,并 探 讨 了 构 建“虚 拟 智 库”的 可 能 性。M. Ritou 等提出了一种基于知识的多层次聚合策略来支 持决策,通过对知识进行聚合的方法智能生成有意义 的数据,并利用航空业的制造流程中产生的数据验证 了策略的有用性,从而对制造过程进行辅助决策。 J. Oostermana 等研究了不同的知识提取和聚合配置如 何影响艺术品注释的识别,利用众包的方法对艺术品 局部注释进行自动聚合,从而方便艺术品的访问和检。索。在线健康社区中包含大量的知识单元,在各个 知识单元之间存在潜在的联系和影响,揭示和发现用 户生成答案的关联知识是实现答案知识的有效组织、 管理和知识发现的基础。

  1. 相关的研究

3.1 基于深度学习的方法

随着计算机领域的深入发展,深度学习技术开始应用于自然语言处理研究中。与

传统的机器学习方法相比,利用神经网络模型往往能够在命名实体识别任务中取得更 加令人满意的结果。神经网络方法使用大规模的未标注语料进行词向量训练,通过将 预训练词向量输入到卷积神经网络(CNN)、循环神经网络(RNN)等模型,实现了端 到端的训练。一方面解决了高维度向量空间带来的数据稀疏问题,另一方面词向量本 身也比人工选择的特征包含更多的语义信息,而且词向量可以从异构的文本中获取统 一向量空间下的特征表示,对于命名实体识别这种典型的序列化标注问题,着实可以 起到推进作用,而目前更多的研究目的在于改进现有的模型和方法, Lample 等提 出了 LSTM 和基于转换的两种神经网络模型,同时从标注语料和未标注语料中获取特 征,在四种语言上均获得了目前最好的实体识别效果。Bharadwaj 等在 LSTM 神经 网络上,增加了一层语音元素特征,在土耳其语等形态变化较复杂的语言上取得了较 好的识别效果。张俊飞等利用 Word2vec 的 CBOW 模型训练低维度字向量并组合字 信息特征向量作为 BiLSTM-CRF 神经网络的输入,实验证明这种模型可以更好的识别 中文领域中的命名实体[。李丽双等提出一种 CNN 模型BiLSTM-CRF 模型相结合 的神经网络模型,通过大量生物医学领域的背景语料训练词向量,并结合 CNN 模型训 练的单词字符集向量,在 BiLSTM-CRF 模型上取得了目前为止最佳的效果。 随着预训练模型在图像领域的有效应用,预训练模型也在自然语言处理领域也开 始流行起来。2018 年谷歌创造性的提出 BERT 模型,在实际的研究中相较于上文提及 的模型的确能够起到更好的识别效果。在通用领域,王子牛等使用基于 BERT 的神经 网络模型得到的命名识别结果准确率和召回率均近 95%。在医学领域,祖木然提古 丽·库尔班使用 BERT 微调模型对电子病历进行命名实体识别,最终发现相较于多种 神经网络模型,BERT 的效果为最佳[28]。百度也在 2019 年提出了 ERNIE 预训练模型, 在同等语料条件下,对快递单中的实体抽取效果 F1 值高达 99%,远超 LSTM-CRF 模 型。预训练模型先由海量语料进行语义学习,在运用到具体的领域问题时,只需要 针对较少的语料进行微调训练便可取得较好的实体识别效果,具有强大的领域泛化能 力,这是基于规则、模板和传统机器学习方法所难以达到的。

3.2命题实体识别

命名实体识别作为信息抽取、问答系统、机器翻译等任务中的基础工作,近年来在多媒体索引、半监督和无监督的学习、复杂语言环境和机器翻译等方面取得大量新的研究成果。未来的研究也将围绕这些方面展开,尤其是对多媒体信息处理,如从多媒体信息中抽取命名实体以及大规模文本处理和同时处理多种类型实体技术的使用。随着半监督的学习和无监督的学习方法不断被引入到这个领域,采用未标注语料集等方法将逐步解决语料库不足的问题。在复杂语言现象(如借喻等)研究以及命名实体识别系统与机器翻译的互提高方面,也有广阔的发展空间。命名实体识别将在更加开放的领域中,综合各方面的发展成果,为信息处理的深层次发展奠定更坚实的基础。

3.2.1 基于规则和词典的方法

  基于规则的方法多采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段,这类系统大多依赖于知识库和词典的建立。

3.2.2 基于统计的方法

  基于统计的方法利用人工标注的语料进行训练,标注语料时不需要广博的语言学知识,并且可以在较短时间内完成。在CoNLL-2003会议上,所参赛的16个系统全部采用基于统计的方法,该方法成为目前研究的主流方法。这类系统在移植到新的领域时可以不做或少做改动,只要利用新语料进行一次训练即可。基于统计机器学习的方法主要包括:隐马尔可夫模型(Hidden Markov Model,HMM)、最大熵(MaximumEntropy,ME)、支持向量机(Support Vector Machine,SVM)、条件随机场(Conditional Random Fields,CRF)等。

3.2.3 混合方法

  自然语言处理并不完全是一个随机过程,单独使用基于统计的方法使状态搜索空间非常庞大,必须借助规则知识提前进行过滤修剪处理。目前几乎没有单

纯使用统计模型而不使用规则知识的命名实体识别系统,在很多情况下是使用混合方法:

  (1)统计学习方法之间或内部层叠融合,如俞鸿魁等采用层叠隐马尔可夫模型对中文进行分词。

  (2)规则、词典和机器学习方法之间的融合,其核心是融合方法技术。在基于统计的学习方法中引入部分规则,将机器学习和人工知识结合起来。

  (3)将各类模型、算法结合起来,将前一级模型的结果作为下一级的训练数据,并用这些训练数据对模型进行训练,得到下一级模型。这种方法在具体实现过程中需要考虑怎样高效地将两种方法结合起来,采用什么样的融合技术。由于命名实体识别在很大程度上依赖于分类技术,在分类方面可以采用的融合技术

主要包括如Voting,XVoting,GradingVal,Grading等。

4 基于预训练模型的细分领域实体识别

相较于通用领域的实体识别任务,细分领域实体识别最大的问题是缺乏标注完善的 大规模语料。当前的机器学习算法应用到细分领域中,都需要针对现有领域语料的不同 特点进而采取相应的策略。比如,针对无标注语料,规则模板匹配是一种常用的实体识 别方法。鉴于细分领域的知识通常具有自身的语言特点,例如在医学领域,多种疾病实 体就以[器官 “炎、症、病”]的构词模板来命名,多类药物实体一般出现在“服用”之后 和“毫克”之前;在军事领域,多种武器实体就以“XX 式步枪、XX 式战斗机”等组词形 式来命名;在快递信息识别中,也可基于“XX 省、XX 市、XX 镇”等地名特征来识别地 址。因此基于规则匹配的方法本身是可取的,但每种信息都需要手写模板,则会严重影 响效率,且领域泛化能力过低。 然而值得注意的是,细分领域通常已在多年的发展中形成了一定的知识库(如主题 词表、本体、词典、百科词条等),并且这些知识库可通过较低成本的采集手段获取。利 用现有的知识可以实现辅助标注,降低人工标注的成本,从而形成小规模的高质量标注 语料,便于开展下一步的深度学习实验。再加之目前深度学习技术已较为成熟,在多种 NLP 研究中均能够取得较好的效果。本章旨在探究一种领域泛化能力较好的细分领域实体识别方案,以“心血管疾病”领域为例,以丁香园心血管疾病讨论模块的用户交流贴 子和“39 健康网”的“心血管内科疾病百科知识”以及 CMeSH 词表为研究数据,实现“心 血管疾病”领域实体的自动识别。

毕 业 设 计(论 文)开 题 报 告

2.本课题要毕业论文主攻方向,主要内容,研究方法及技术路线

(一)原始数据:

1. 丁香园心血管论坛帖子采集、预处理

2. 实体识别的训练集标注;

(二)技术要求:

1.掌握数据采集软件(火车浏览器)

2. 掌握细分领域实体识别相关深度学习技术(BERT、LSTM、预训练 微调)

(三)工作要求:

按照论文规范要求和工作量以及计划进度完成论文的撰写;结构要合理,文笔要流畅,论点要正确,方法要科学。

在线健康社区研究的主要内容及其框架

类型

细分研究(数量)

疾病

高血压(),糖尿病(),冠心病()更多()

症状

胸闷(),头晕(),呼吸有困难(),更多()

器官

心脏(),血管()更多()

诊断方式

心电图(),心脏血管超声 检查 (),胸部透视(),更多()

药物

华法林(),硝酸甘油(),心腹康胶囊(),更多()

毕 业 设 计(论 文)开 题 报 告

3.毕业论文应收集的资料及应参考文献

[1] Peng N, Dredze M. Improving named entity recognition for Chinese social media with word segmentation representation learning[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2016: 149-155.

[2] Lample G, Ballesteros M, Subramanian S, et al. Neural architectures for named entity recognition[C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg: Association for Computational Linguistics, 2016: 260-270.

[3] 朱笑笑, 杨尊琦, 刘婧. 基于Bi-LSTM和CRF的药品不良反应抽取模型构建[J]. 数据分析与知识发现, 2019, 3(02): 90-97.

[4] Zhang Y , Yang J . Chinese NER Using Lattice LSTM[J]. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, 2018, pages 1554–1564.

[5] 李丽双, 郭元凯. 基于CNN-BLSTM-CRF模型的生物医学命名实体识别[J]. 中文信息学报, 2018, 32(01): 116-122.

[6] 李延昀. 基于注意力机制的命名实体识别算法研究[D]. 北京邮电大学, 2019.

[7] Peters M. E, Neumann M, et al. Deep contextualized word representations[C]. NAACL, 2018.

[8] Vaswani A, Shazeer N, et al. Attention is all you need[C]. In Advances in Neural Information Processing Systems, 2017, pages 6000–6010.

[9] Devlin J, Chang M W, et al. BERT: Pre-training of Deep Bidirectional Transformersfor Language Understanding[C]. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics, 2019, pages 4171–4186.

[10] 孔玲玲. 面向少量标注数据的中文命名实体识别技术研究[D]. 浙江大学, 2019.

[11] 杨飘, 董文永. 基于BERT嵌入的中文命名实体识别方法[J/OL]. 计算机工程. [2019-11-11].

[12] 曹依依, 周应华, 等. 基于CNN-CRF的中文电子病历命名实体识别研究[J]. 重庆邮电大学学报(自然科学版), 2019, 31(06): 869-875.

[13] 杨雪敏. 基于机器学习的生物医学命名实体识别的研究[D]. 南京邮电大学, 2019.

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。