微信公众号分布文本中的事件抽取文献综述

 2022-10-30 09:10
{title}{title}

文献综述

1 引言

事件抽取(Event Extraction)是一种特殊的信息抽取(Information Extraction)问题,旨在从自然文本中将事件以结构化的形式抽取出来,以供用户查询。事件抽取的研究涵盖了包括计算机科学、语言学、自然语言处理、机器学习、模式匹配等一系列领域,在生物医学、金融、政治等领域有广泛应用[1]

2 事件抽取任务概述

2.1 事件抽取定义

事件抽取是信息抽取领域的一个重要研究方向。信息抽取指从非结构化或者半结构化的文本中抽取得到结构化的信息[2]。在事件抽取中,这种信息特指事件。即,事件抽取的主要任务是从非(半)结构化的文本中把事件以结构化的形式呈现出来,比如,什么人,什么时间,在什么地方,做了什么事等[3]

根据ACE(Automatic Content Extraction)评测对事件抽取的定义,一个事件主要由事件触发词(Trigger)、事件类型(Type/Subtype)和事件元素(Argument)三个方面组成[4]。事件触发词是最能够概括这个事件的一个词,一般由于这个词的存在,我们判断语境中有候选事件。事件类型定义了事件应该包含的元素。

以“王小波1952年生于北京”为例,该句中,事件触发词是“生”,事件类型是“出生”,事件元素分别有三个,分别是“王小波”(人物)、“1952年”(时间)、“北京”(地点)。“出生”这个事件类型包含三个元素:人物、时间、地点。

作为对比,“马丁和马克创办了一家名为2MB的运动管理公司”这个句子中,事件触发词是“创办”,事件类型是“创办企业或者组织”,事件元素是“马丁、马克”(人物)、“2MB”(组织)。其中,“创办企业或者组织”这个事件类型规定了人物、组织、时间、地点四个事件元素,而句子中只包含两个,所以只抽取出了两个元素。

2.2 事件抽取工作内容

根据以上定义,一般而言,在特定领域的事件抽取任务中,一般包含三个方面的工作[5]

  1. 事件类型的确定:在进行事件抽取前,首先需要确定事件类型。ACE评测规定了一系列事件类型[4],如表1所示,可以看出,其主要规定了8个领域的事件类型,不能应用于一些特定领域。在对特定领域进行事件抽取时,应首先确定事件类型。

表1 ACE评测规定的事件类型

Types

Subtypes

Life

Be-Born, Marry, Divorce, Injure, Die

Movement

Transport

Transaction

Transfer-Ownership, Transfer-Money

Business

Start-Org, Merge-Org, Declare-Bankruptcy, End-Org

Conflict

Attack, Demonstrate

Contact

Meet, Phone-Write

Personnel

Start-Position, End-Position, Nominate, Elect

Justice

Arrest-Jail, Release-Parole, Trial-Hearing, Charge-Indict, Sue, Convict, Sentence, Fine, Execute, Extradite, Acquit, Appeal, Pardon

  1. 事件类型的识别:指从给定语料中识别出事件的类型。一般首先建立“触发词—事件类型”对照表,然后根据语料中包含的触发词来确定事件类型。由于一词多义的存在,会有误报(false positive)的情况出现。比如,如果用“瘫痪—Life/Injure”判断表2中的例句,则2句和3句都会出现误报[6]。选择一些特征,用机器学习的方法构造二元分类器,可以提高识别的成功率。

表 2 用“瘫痪—Life/Injure”二元对判断的例句

序号

句子

1

工人工作期间不慎摔成瘫痪

2

暴风雪突袭东北华北辽宁所有高速公路基本瘫痪

3

黑客攻击导致网址瘫痪

  1. 事件元素的抽取:指从语料中抽取出事件元素。

3 模式匹配在事件抽取中的应用

模式匹配可以被应用于事件元素的抽取之中。自然语言一般符合特定的语法规则,因此,在对语料进行自然语言处理之后,可以根据句法、词性、语义依存等信息,构建特定的模式,然后将模式应用于新语料中进行匹配,从而抽取出事件元素。

在上述工作中,最重要的步骤是构建高质量的模式,即模式的获取,使得得到的模式能够准确地匹配得到涉及到的事件元素。研究人员先后设计过多种应用于信息抽取领域的模式获取系统,如AutoSlog[7]、 PALKA[8]、 AutoSlog-TS[9]、 ExDisco[10]、 TIMES[11]

文献[5]提出了一种基于Bootstrapping思想的模式获取方法。其具体做法是:将已标注的包含事件的句子作为种子,提取出关键词后利用搜索引擎检索,获取一系列与种子句子含义一致但是表达不同的句子;然后,从这些句子中提取出包含词和词性的序列模式,取这些模式的最小公共泛化部分,得到可以用于匹配的模式。

总体而言,如果根据词性、句法等信息人工构建简单的模式,应用在元素识别中,会取得一定的效果;而如果想进一步提高效果,则需要设计算法自动构建更加高质量的模式,其难点在于语言表达的多样性,同一种含义往往可以用不同的方式进行表达,给通用模式的构建造成困难。

4 机器学习在事件抽取中的应用

机器学习可以被应用于事件类型识别和事件元素识别中。这种方法设法将需要解决的问题看作分类问题,选择词性、上下文、辞典等特征,构造合适的分类器来解决。

文献[12]首先将机器学习的方法引入事件抽取任务中。其把事件元素的抽取看作是分类问题,即,句子中的词可能属于“人物”“地点”等不同的元素类别,也可能并不是事件元素。文献[12]使用了最大熵分类器,在卡内基梅隆大学标注的英文语料上取得了不错的效果。

文献[13]将机器学习方法应用到事件类型识别和事件元素识别中。他们把事件类型的识别看作事件触发词的识别,然后对每个词进行二元分类,判断是否为触发词,如果是触发词,再进行多元分类,来判断事件的类别。

文献[14]把机器学习应用到句子分类中。学术界的事件抽取研究一般是句子级的,因此,在实际应用中,需要首先将语料中的句子进行分类,把包含事件的句子和不包含事件的句子分开,然后从前者中提取事件。

机器学习主要依赖于两方面的工作:语料的预处理和标注。由于需要选用词性、上下文等信息作为特征来构造分类器,因此需要对语料进行分词、词性标注等预处理;同时,分类器的训练需要大量已标注的语料。

5 小结

事件抽取任务的一般含义是从非结构化的自然文本中将事件类型、事件元素以结构化的形式抽取出来。主要有模式匹配和机器学习这两种方法可以应用于事件抽取任务中。模式匹配的基本思路是利用词性、句法等信息,人工或自动构建序列模式,在文本中进行匹配,来抽取事件元素。机器学习的基本思路是将事件类型的确定、事件元素的抽取问题看作分类问题,选用词性、上下文、辞典等作为特征,构造合适的分类器,来进行判断。两个方法都需要运用自然语言处理方法对语料进行预处理;同时,机器学习的方法需要大量已标注的语料。

参考文献

  1. Hogenboom, F., Frasincar, F., Kaymak, U., de Jong, F., Caron, E. A Survey of event extraction methods from text for decision support systems[J]. Decision Support Systems, 2016, 85: 12 – 22
  2. Information extraction[EB/OL]. https://en.wikipedia.org/wiki/Information_extraction. 2017-03-07
  3. 许旭阳,韩永峰,宋文政. 事件抽取技术的回顾与展望[J]. 信息工程大学学报,2011,12(1): 113 – 118
  4. ACE (Automatic Content Extraction) Chinese Annotation Guidelines for Events[EB/OL]. https://www.ldc.upenn.edu/sites/www.ldc.upenn.edu/files/chinese-entities-guidelines-v5.5.pdf. 2005
  5. 丁效. 句子级中文事件抽取关键技术研究[D]: [硕士学位论文]. 哈尔滨: 哈尔滨工业大学计算机科学与技术学院,2011
  6. 赵妍妍. 中文事件抽取的相关技术研究[D]: [硕士学位论文]. 哈尔滨: 哈尔滨工业大学计算机科学与技术学院,2007
  7. Ellen Riloff. Automatically constructing a dictionary for information extraction tasks[J]. Proc. Eleventh National Conf. on Artificial Intelligence, 1993: 811~816.
  8. J. Kim and D. Moldovan. Acquisition of linguistic patterns for knowledge-based information extraction[J]. IEEE Transactions on Knowledge and Data Engineering,. 1995, 7(5): 713~724
  9. Ellen Riloff and Jay Shoen. Automatically Acquiring Conceptual Answer Patterns Without an Annotated Corpus[J]. In Proceedings of the Third Workshop on Very Large Corpora, 1995: 148~161
  10. Roman Yangarber. Scenario Customization for Information Extraction[D]. Ph.D. Dissertation. New York University. January, 2001:1~147
  11. Joyce Yue Chai. Learning and Generalization in the Creation of Information Extraction Systems[D]. Doctoral dissertation, Dept. of Computer Science, Graduate School of Duke University. 1998:1~158
  12. Hai Leong Chieu and Hwee Tou Ng. A Maximum Entropy Approach toInformation Extraction from Semi-Structured and Free Text[J]. In Proceedings of the 18th National Conference on Artificial Intelligence, 2002: 786-791.
  13. David Ahn. The stages of event extraction[J]. Proceedings of the Workshop on Annotations and Reasoning about Time and Events, Sydney, 2006: 1~8
  14. 魏新宇,秦颖. 中文事件抽取研究及实现[J]. 电脑编程技巧及维护,2014:31 – 34

文献综述

1 引言

事件抽取(Event Extraction)是一种特殊的信息抽取(Information Extraction)问题,旨在从自然文本中将事件以结构化的形式抽取出来,以供用户查询。事件抽取的研究涵盖了包括计算机科学、语言学、自然语言处理、机器学习、模式匹配等一系列领域,在生物医学、金融、政治等领域有广泛应用[1]

2 事件抽取任务概述

2.1 事件抽取定义

事件抽取是信息抽取领域的一个重要研究方向。信息抽取指从非结构化或者半结构化的文本中抽取得到结构化的信息[2]。在事件抽取中,这种信息特指事件。即,事件抽取的主要任务是从非(半)结构化的文本中把事件以结构化的形式呈现出来,比如,什么人,什么时间,在什么地方,做了什么事等[3]

根据ACE(Automatic Content Extraction)评测对事件抽取的定义,一个事件主要由事件触发词(Trigger)、事件类型(Type/Subtype)和事件元素(Argument)三个方面组成[4]。事件触发词是最能够概括这个事件的一个词,一般由于这个词的存在,我们判断语境中有候选事件。事件类型定义了事件应该包含的元素。

以“王小波1952年生于北京”为例,该句中,事件触发词是“生”,事件类型是“出生”,事件元素分别有三个,分别是“王小波”(人物)、“1952年”(时间)、“北京”(地点)。“出生”这个事件类型包含三个元素:人物、时间、地点。

作为对比,“马丁和马克创办了一家名为2MB的运动管理公司”这个句子中,事件触发词是“创办”,事件类型是“创办企业或者组织”,事件元素是“马丁、马克”(人物)、“2MB”(组织)。其中,“创办企业或者组织”这个事件类型规定了人物、组织、时间、地点四个事件元素,而句子中只包含两个,所以只抽取出了两个元素。

2.2 事件抽取工作内容

根据以上定义,一般而言,在特定领域的事件抽取任务中,一般包含三个方面的工作[5]

  1. 事件类型的确定:在进行事件抽取前,首先需要确定事件类型。ACE评测规定了一系列事件类型[4],如表1所示,可以看出,其主要规定了8个领域的事件类型,不能应用于一些特定领域。在对特定领域进行事件抽取时,应首先确定事件类型。

表1 ACE评测规定的事件类型

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。