基于联合主题和上下文注意力机制的争议焦点生成技术文献综述

 2022-09-21 10:16:33

文献综述(或调研报告):

法律争议焦点生成工作属于法律服务系统的一部分。随着技术的发展,法律服务系统的功能越来越多样化。早期的法律工作主要应用的是机器学习的文本分类技术。Boella等人 [2]在2011年实现了根据法律文书和它的领域标签之间的关系,来确定特定法律文本的相关领域。Liu和Chen[5]在2017年使用了数据挖掘的方法从先例中提取特征,然后使用文本分类器自动对判决情况分类,以实现判决预测。

最近自然语言处理和深度学习技术的进步给研究人员带来了新的技术。2017年,Luo等人[7]提出了一个基于注意力的神经网络框架,可以同时对控诉罪名预测任务和相关法律文书提取任务进行建模。在这个框架中,提取出的相关法律文书对控诉罪名预测起到了一定的作用。但是,这个工作仅仅只关注高频的控诉罪名,没有对那些不常见的活着容易混淆的控诉罪名进行预测。为了解决这些问题,Hu等人[4]在2018年考虑引入有判别力的法律属性进行控诉罪名预测,并且提出了一个新型的基于属性的多任务学习模型。特别的是,他们的模型通过利用基于属性的注意力机制,实现了同时学习无属性和属性感知的事实描述。2017年,Long等人[6]将判决预测的任务看成是法律阅读理解,并且提出了一个新型的LRC(Legal Reading Comprehension)模型,AutoJudge,引入法律条文进行判决预测。AutoJudge由三个灵活的模块组成,包括一个文本编码器、一个注意力阅读器和一个输出模块。2018年,Ye等人[14]提出了一个新型的法院观点生成的人物,并且将该任务看成是文本到文本的自然语言生成问题。他们提出了一个基于标签的带注意力的Seq2Seq模型,实现以编码的控诉标签伟前提条件,输出法院观点。由于法律争议焦点生成是根据原告诉称和被告辩称的文本得出的,因此受到Ye等人工作的启发,本文将争议焦点生成任务看成是文本生成问题。

2014年,Bahdanau等人[1]提出了神经网络。同年,Sutskever等人[12]首次应用了神经网络,并提出了针对文本生成的序列到序列模型,即Seq2Seq模型。但是该模型不能着重注意到关键的句子和关键词,导致生成效果较差。因此,2015年,Rush等人[10]提出了带注意力机制的神经Seq2Seq模型(S2SA),并且在两个句子级别的摘要数据集,DUC-2004和Gigaword中取得了显著的效果。由于S2SA忽略了文本的层级结构,Nallapati等人[9]在2016年对S2SA模型进行了修改,改成了层级的注意力架构以便抓住句子-单词的层次信息。

但是文本生成仍然存在许多问题,比如文本中句子重复,信息遗漏等。为了避免出现重复的情况,2016年,Tu等人[13]和Mi等人[8]都采用了覆盖机制,将coverage向量作为注意力机制的额外输入,并且在每个时间步都使用GRU更新coverage向量。另外,原文本中有些罕见的或者不知道的单词对生成的摘要影响很大,但是现有的模型却无法生成这些单词。因此,Gu等人[3]在2016年的时候,在Seq2Seq模型中引入了copy机制,提出了CopyNet模型。在每个时间步,这个模型都会选择从输入的文本中复制单词或者从目标单词表中生成单词。2017年,See等人[11]同时采用了coverage机制和copy机制,提出了一个复合指向生成器架构,同时解决了生成单词重复和罕见单词无法生成的问题。

1、Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473, September 2014.

2、Guido Boella, Luigi Di Caro, and Llio Humphreys. Using classification to support legal knowledge engineers in the eunomos legal document management system. In Fifth International Workshop on Jurisinformatics(JURISIN), 2011.

3、Jiatao Gu, Zhengdong Lu, Hang Li, and Victor O.K. Li. Incorporating copying mechanism in sequence-to-sequence learning. In Association for Computational Linguistics, 2016.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。