基于领域实体关联的在线健康社区知识聚合研究
- 选题背景
社会网络环境下,用户的知识获取、交流和利用越来越于一定的网络社区。基于用户兴趣或特定目标而形成的具有领域专业性的网络杜区发展十分迅速。例如:在用户对篮球、足球、步行街、影视、电竞等兴趣交流上形成虎扑社区平台,在用户分享彼此知识和经验基础上形成的知识网络问答社区知乎,以大众用户沉浸式体验交流形成的创作社区简书,以专业医生业务交流为基础形成的丁香园医学社区。在线社区的持续发展和公民健康意识的不断增强促进了在线健康社区的兴起和蓬勃发展。目前,在线健康社区如好大夫网、甜蜜家园已经成为人们搜索、交流和共享健康信息的重要平台。
为了帮助用户更好地利用网络社区中的信息资源,需要促进数字化信息资源的有效利用,致力于开展知识关联挖掘研究,近年来,国内图书情报领域以“聚合”为题的研究项目较多,因而也涌现出一大批成果。关于知识聚合项目和研究成果,大多以学术资源(以馆藏资源为典型代表)为对象。而关于知识聚合模式的研究,大多侧重从聚合所依据的知识关联来区分。而网络化区中用户产生的内容与学术资源特征迴异,每个用户知识表述存在随意性,缺乏有效的内容标注和外部属性。所以面对网络社区的知识关联和知识聚合与面向学术资源的有所不同,需要借鉴和改进其他领域的理论方法。
- 选题意义
2.1理论意义
与目前学术资源知识聚合的理论方法相比,在网络社区中实现对用户内容的知识聚合更加困难,需要更直接的面对用户交流的内容主题,要以对应的领域知识为背景,接合基本的概念单元,实现基于领域实体关联的知识聚合。为解决这一问题,有必要将传统的知识组织理论、成熟的语义知识组织系统和新兴的基于复杂网络的文本内容表示模型进行系统连接,高效地选择出某个领域下与查询最相关的少量数据源。
2.2实践意义
在网络社区知识聚集研究的支持下,可以开发更广泛、更深入的知识服务模式,促进网络社区中的知识交流、知识利用和知识创造,对网络社区中用户内容进行深度挖掘,以此基础进行知识聚合,为构建更丰富、有效的用户服务体系提供保障。以本研究为例,充分对网络社区中的语义信息进行合理的提取和利用,并结合最新的深度学习技术和“词嵌入类比”方法最终形成的心血管疾病知识聚合可以在丁香园网站中起到精准推荐的作用。用户在针对某一种特定疾病进行检索时,可为其推荐最相关的文章。
- 国内外研究现状(文献综述)
根据网络社区中用户知识交流的趋势,提出了一种满足用户需求的知识聚合方案。网络社区知识组织的主要基础是用户交流内容中的主题及其对应的领域概念联想。因此,网络社区知识聚集的核心必须是构建特定领域的概念关联系统。传统的知识组织系统已不能满足网络社区知识聚合的需要,重点是通过整合现有的领域背景知识系统和基于UGC内容挖掘的知识关联系统,构建领域多概念关联系统。为了支持实现广泛网络社区的多维知识聚合,借鉴化学领域中对聚合反应两大类型划分的方法,提出以“是否保留知识单元间及其关联间的差异性”为根据,将知识聚合划分为知识类聚和知识共聚,并探讨知识共聚的基本实现形式。
知识聚合是图情学科的研究热点,“聚合”一词与英文“Aggregation”相对应,是指由异类成分组成的聚合,或多个细小单元组合形成的整体。李亚婷对相关概念进行了辨析和界定:聚合侧重于挖掘对象间多种关联并建立相应体系;融合强调对象经处理后产生的新变化;集成、整合则关注利用对象间的共性规则对其进行综合管理。在信息资源快速增长导致有价值的知识资源高度分散、无序分布的背景下,知识聚合通过发现“知识碎片”之间的关联,对知识资源进行多维度的组合,为用户提供系统化、横向和纵向的知识内容。与数据集成和信息集成相比,知识聚合在聚合强度和聚合粒度上有了质的提高。知识聚集是实现基于用户需求的知识组织和利用的多元化、深度和开放性的前提。
