基于认知服务知识库的新冠肺炎疫情自动问答系统的构建文献综述

 2022-12-02 08:12
  1. 课题意义

新型冠状病毒肺炎( 简称新冠肺炎)世界卫生组织命名为“2019冠状病毒病”,是指2019新型冠状病毒感染导致的肺炎。2020年的新冠肺炎疫情,是新中国成立以来发生的传播速度最快、感染范围最广、防控难度最大的一次重大突发公共卫生事件。截至2020年11月11日24时,我国累计确诊86299例(不含港澳台地区通报的确诊病例6037例),累计治愈81252例,累计死亡4634例。截至2020年11月12日0时52分,国际累计确诊51251715例,累计死亡1270930例[1]。全球新冠肺炎病例仍在增长,新冠肺炎疫情对人民生命财产安全造成了巨大损失,人们对于新冠肺炎病毒的了解较少,不够全面,网络上的信息也比较零碎,不方便查找与利用。一个健全的新冠肺炎知识普及系统能更方便人们查询新冠肺炎相关信息,对于疫情防控和普及新冠肺炎知识具有重大意义。

自动问答系统,是以自然语言处理等多种人工智能技术为基础,使用Web作为表现形式的智能问答系统。问答系统在搜索引擎的基础上融入了自然语言理解的知识与应用,将传统搜索引擎从关键词匹配的语法层面,提高到理解用户意图、分析答案的语义与语用层面。它是集知识表示、信息检索、自然语言处理技术于一体的新一代搜索引擎,既能用自然语言句子提问,又能为用户直接返回所需答案,相对于传统搜索引擎来说,问答系统能够更好地表达用户的需求,适应用户的习惯,回答信息也更准确、更快、更高效,从而满足信息爆炸时代人们的需求[2]

因此,将自动问答系统与新冠肺炎疫情相结合,利用问答系统的优势进行新冠肺炎疫情知识的搜索,能大大提高检索效率,利于新冠肺炎知识普及,助力疫情早日结束。

  1. 研究内容及方法

本课题旨在研究创建新冠肺炎疫情知识库,以及开发新冠肺炎疫情的自动问答系统并部署。知识库中包含新冠肺炎病毒的研究进展,新冠疫苗的研发进展等知识。采用信息研究方法和文献研究法将网络上与文献中的关于新冠肺炎内容进行整合与收集。从众多的新冠肺炎相关的信息的整理出具有高实用性和时效性的信息,结合微软云平台提供的QnA maker服务,形成一个针对新冠肺炎的专一型知识库。再在知识库的基础上使用当今较热门的自动问答系统技术,构建基于认知服务的新冠肺炎疫情自动问答系统。最后采用web开发以及微软云提供的api将自动问答系统部署到网页,使大众可在手机和其他移动终端实现对新冠肺炎疫情知识的快速查询。

  1. 国内外研究现状

近年来,随着知识库的快速发展,基于知识库的问答系统(question answering over knowledge bases,KB-QA)成为了自然语言处理(natural language processing,NLP)任务中研究热点[3]。目前国内关于知识库方面研究的成果较为丰富,主要集中在理论、实践以及不同类型知识库研究这三个方面,理论方面主要是概念、特征、主要作用、实施流程等的研究;实践方面主要关于知识库构建的技术、工具等方面的研究;不同类型知识库主要是指机构知识库、基于维基(WIKI)系统的知识库以及档案知识库等的研究[4]。知识库研究的丰富使得构建知识库更加的方便与便捷。同时,在国内还没有关于新冠肺炎疫情的专用问答系统,使得人们要了解新冠肺炎疫情相关信息必须自行上网检索。由于网上的信息太过于碎片化,不利用收集信息,同时多次的检索与筛选信息使得消耗时间增多。同时网上还有可能存在虚假信息,可能会对人们产生误导,也对人们提出了信息筛选的要求。

早在60年代人工智能研究刚开始的时候,就提出了让计算机用自然语言来回答人们的问题,这就是指自动问答系统。问答系统在80年代的自然语言处理领域曾风行一时,因为Turing实验告诉人们如果计算机能够象人一样与人进行对话,就可以认为计算机有智能,所以研究者们为了探索语言理解技术,纷纷研究自然语言问答系统。但是,由于当时的条件限制,所有的实验都是在非常受限的领域,甚至是固定段落上进行的,所以自动问答一直被限制在特殊领域的专家系统。此后,由于大规模文本处理技术的兴起,问答系统的研究受到了冷落。最近几年,随着网络和信息技术的快速发展,同时人们想更快地获取信息的愿望也重新促进了自动问答技术的发展。最近有越来越多的的公司和科研院所参与了自动问答技术的研究。比如,微软和IBM等著名的跨国公司。目前,国外已经开发出一些相对成熟的问答系统。麻省理工(MIT)就开发出一个问答系统Start,从1993年开始发布在Internet上,可以回答一些有关地理、历史、文化、科技、娱乐等方面的简单问题。通过问题分析而得到的关键词集需要提交给信息检索模块来查找相关的文档。检索系统的任务就是在已有的文档库中搜索和关键词集相关的文档。为了保证对任何问题都能找到相关的文档,文档库必须足够大。文档库中可以从互联网上下载。也可以把百科全书加到文档库中。信息检索模块返回的是一堆相关的网页。然后答案抽取模块从这些相关的网页中找出相关的答案(一句话,或者是一段)提交给用户。答案抽取是问答系统的最后一部分,也是难度最大的一部分。如果答案抽取模块不能准确地把正确答案抽取出来,将严重影响整个问答系统的准确性。除了上述三个模块之外,有的问答系统还包括了一个常问问题(FAQ)库,把用户经常问的问题及其答案保存起来。有了FAQ库之后,对用户问的问题先在FAQ库中搜索,看看有没有相同的问题,如果有,就可以直接把FAQ库中这个问题的答案返回。这样,对于用户常问的问题,问答系统就可以很快给出答案,而不需要经过复杂的处理,而且还能保证答案的正确。所以有了FAQ库之后,既能提高问答系统的效率,又能提高准确性[5]

  1. 可行性分析及预期目标

Microsoft Azure以云技术为核心,提供了软件 服务的计算方法,提供强大的云计算服务。其中QnA Maker是用于建立知识库的工具,使用 QnA Maker,可以根据 FAQ(常见问题解答)文档或者 URL 和产品手册等半结构化内容打造一项问题与解答服务。使用QnA maker, 可以生成一个问题与解答模型,以便灵活地应对用户查询,即用户不必输入精确的查询条件,而是提供以自然对话方式受训的机器人来响应。借助微软云平台,可以很容易的部署知识库,同时通过其提供的接口,可以方便快捷地连接知识库,连接已有应用,藉此实现新冠肺炎疫情的自动问答系统。

自动问答系统预期实现的目标包括:知识库数据的训练和测试,构建和部署新冠肺炎疫情自动问答系统。

  1. 研究进度安排

2021.1-2021.2 调查研究、文献检索和搜集资料,确定课题要实现的总目标,建立用例模型。

2021.2-2021.3 反复论证方案,对用例模型进行用例描述,建立模型的类图,确定设计方案。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。