代写计算机论文范本:面向事故灾难领域的事件抽取技术思考

发布时间:2023-12-07 22:26:56 论文编辑:vicky

本文是一篇计算机论文,笔者认为为了解决事件抽取任务中触发词和事件类型不匹配的问题以及一个触发词对应多个事件类型的问题,在事件类型的提取部分将字符作为最小单位,通过使用Skip-Gram模型对清洗过的数据进行向量的表示学习。

第1章绪论

1.1研究背景与意义

现如今,随着计算机技术的发展和网络的普及,越来越多的人参与到网络的世界中,社交媒体的发展也给便捷的网络生活带来了大量的数据。网络上大量的新闻、论坛及微博等极大地丰富了我们的信息来源,我们可以快速地获取大量的我们想要了解的信息内容。然而,在信息大爆炸时代我们享受着便利的同时也面临很多问题。如何从海量的信息中不被舆论误导并且快速获得需要的信息,提高有效信息的获取率[1]。尽管现在短视频发展的很不错,但是,信息的传播方式大多还是以文本的形式出现,并且大量的网络信息是非结构化的,因此不容易理解。信息抽取(Information Extraction,IE)技术可以帮助我们解决这个问题,信息抽取作为一种手段,快速可以自动地从非结构化数据中提取我们需要的重要信息,并给它重新输出一个结构化的表示[2]。当前,信息抽取任务已成为研究者在自然语言处理领域的一个重要研究领域,其内容分为命名实体识别[3](Named EntityRecognition,NER)、关系抽取[4](Relation Extraction,RE)、事件抽取[5](EventExtraction,EE)以及信息集成[6]。

事件抽取是信息抽取领域中的一种[7],是自然语言处理中(Natural LanguageProcessing)的一个重要的研究领域,有很高的研究价值。事件抽取是以事件为核心,快速抽取事件中的论元以及论元之间的关系,便于人们快速了解一个事件的发展。事件抽取笼统地来说依赖命名实体识别和关系抽取的准确性[8]。因此,事件抽取是建立在命名实体识别和关系抽取的基础上,事件抽取的效果主要取决于命名实体识别以及关系抽取的准确性。

1.2国内外研究现状

事件抽取的发展可以说是和信息抽取同时开始进行的,最开始的事件抽取在国外发展的较好,相关技术也比较成熟。中文的事件抽取相对英文来说开始的比较晚,尽管现在神经网络技术发展迅速,但是学者对于中文的研究还是比较少,一方面由于中文事件抽取的数据量小,数据稀疏,另一方面还存在标注困难等问题。对于事件抽取的研究可以追溯到2005年。2005的事件抽取方法主要是基于特征向量的方法,依赖于人工设计特征,用最大熵[9]、支持向量机[10](support vectormachines,SVM)、条件随机场[11](Conditional Random Field,CRF)等一些传统的机器学习模型来做事件抽取和事件元素的抽取。2013年主流的方法是将事件抽取转化为对事件结构的建模,建模树结构或者图结构来捕获全局信息。2015年至今深度学习技术逐渐蓬勃发展,使用神经网络的方法进行事件抽取逐渐成为主流,卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN)、长短期记忆(Long Short-Term Memory,LSTM)为了捕获句法上的依存关系,还用到图神经网络(Graph Neural Networks,GNN)等。下面对事件抽取研究现状做详细概述。

1.2.1基于特征向量的方法

基于特征向量的研究方法主要任务是如何从文本中获取事件的有效特征,并且把挖掘到的有效信息收集起来。Grishman[12]等人在报告中详细介绍了纽约大学英语ACE 2005系统的整体框架。Ahn[13]等人在文章中提出了一种方法,把事件抽取的各个任务分模块化进行事件抽取子任务,然后让各个子任务进行机器学习,最后测评这些子任务对事件抽取整体任务的影响。Liao[14]等人考虑到使用短语或句子进行事件抽取存在局部信息对于识别特定事件类型的局限性,提出了使用文档级别的统计模型进行事件抽取以此来提高抽取的性能,把事件抽取系统二分类为句子级别的系统和文档级别的系统,句子级别的系统对局部信息做决策,文档级别系统根据这些局部信息完成句子级别系统不能完成的工作,以达到文档一致性。Yu H[15]等人提出了一种基于跨实体推理的一种事件提取的方法,使用该方法的前提需要保障实体类型的一致性。

第2章相关理论和主要技术

2.1事件抽取模型

我们可以把事件抽取任务看做是一个序列标注任务,在进行事件抽取任务中,主要用到的模型为循环神经网络模型。在进行文本嵌入的过程中,一种是模型自有的Embedding网络,另一种选择Word2vec作为嵌入模型。本小节主要介绍常用到的序列标注模型、循环神经网络模型、以及Word2vec,在后续的实验部分还用到卷积神经网络以及注意力机制。

2.1.1序列标注模型

序列标注模型在中文关键词的抽取上有很好的表现[28]。Liu等人用三种不同的序列标注方法进行实验比较,分析性能[29]。序列标注模型处理的是连续时间序列的各个节点。由于在训练阶段没有考虑到序列间的关联关系,所以很难准确刻画实际数据中可能发生的变化,从而导致了对这些变化无法进行预测或预报。通常序列的各节点本身的标注信息并不是单独存在的,相反,它和整个序列中其他节点具有联系性。因此,与分类方法比较,序列标注模型对于求解这类问题是连续的,能够较好地抓取时序信息。

2.2事件抽取技术

事件就是指某一个具体时间点或者时间段内所发生的事情。一定地域范围,一个或更多人物所涉及的一种或更多行为所构成的事或状态变化。事件抽取作为自然语言处理领域的一项关键技术已经受到人们广泛关注和研究。事件抽取是指从非结构化或半结构化数据中,提取用户所关注事件的信息,将其结构化表达。它能够为我们提供有价值的信息,比如事件描述、行为特征等[41]。

目前推动事件抽取任务的主要由国际上的几个公开的测评会议展开,最开始由DARPA做的MUC会议[42](Message Understanding Conference,消息理解会议),MUC会议定义了事件抽取的相关的概念和技术,MUC会议选取新闻文本为语料,对新闻文本语料进行事件抽取,最终将结果储存在数据库中。TDT会议[43](Topic Detection and Tracking,话题识别与跟踪),TDT主要用于主题检测和追踪,并不会刻意抽取事件类型和事件角色,ACE[44]会议(Automatic ContextExtraction,自动内容抽取)是目前使用最广泛的事件抽取数据集,KBP会议(Knowledge Base Population)主要是识别抽取信息并与知识库相链接[45]。

ACE 2005事件语料库定义了8个事件类型和33子类型,每个事件子类型对应于一组参数角色。所有事件子类型共有36个参数角色。如图2-8所示的是ACE规定的中文事件抽取中事件类型的划分:

计算机论文怎么写

第3章 面向事故灾难领域的事件类型提取方法 ................................ 14

3.1 事件类型抽取模型框架........................................ 14

3.1.1 表示学习模块 ....................................... 16

3.1.2 特征提取模块 ................................... 17

第4章 面向事故灾难领域的事件角色提取方法 ................................ 30

4.1 篇章级事件抽取任务示例 ............................ 30

4.2 数据处理及序列标注 ............................. 31

第5章 总结与展望 ............................. 40

5.1 总结 ............................. 40

5.2 展望 ..................................... 40

第4章面向事故灾难领域的事件角色提取方法

4.1篇章级事件抽取任务示例

篇章级事件提取的目标是在一篇文章中标识预先指定类型的事件以及它们特定于事件的角色填充符,即参数[60]。完整的篇章级提取问题通常需要角色填充符提取和事件检测。图4-1是篇章级事件抽取任务的示例。给定由多个句子组成的成的文章,如图4-1左边所示。该文章有固定的事件类型(例如,恐怖袭击事)和相关的论元角色(例如,袭击人,受害者,武器),如图4-1右边所示。我们的目标是识别文章中描述事件类型和论元角色的文本跨度,这不仅需要理解对句子层面特征,更需要理解整个篇章层面的特征。例子包括将“Pilmai电话公司大楼”(在S2中提及)确定为一个实体目标,武器为“TNT炸弹袭击”(在S2中提及),行凶者为“两个男人”(在S6中提及)。这都需要对整片文档的推理。对篇章级事件进行抽取对于促进信息检索和文章总结等下游应用[61]以及世界事件的趋势分析等现实生活中的应用[62]至关重要。

计算机论文参考

第5章总结与展望

5.1总结目前事件抽取任务的难点在于现有方法主要依赖于神经网络的方法,但是神经网络需要有大量的训练数据去训练模型,但是实际情况是现有的数据量小,数据稀疏。第二个任务难点在于现有方法一般从单一句子中抽取事件,而事件大多是由一个篇章或者一个段落或多个句子来表述,所以,如何利用篇章的信息去抽取完整的事件。针对以上任务,在ACE规定的任务流程下,分别使用不同的实验方法去实现,使任务更准确。下面将分别论述两个实验部分:

(1)针对中文领域的事件抽取任务数据量小,数据稀疏的问题,在第三章的实验中对CEC数据库进行筛选和扩充并且结合MUC-4数据集,我们使用Lattice LSTM模型作为特征提取,解决了触发词和事件类型不匹配的问题。经过实验,模型在性能上有所提升。

(2)针对使用流水线模式的事件抽取在不同的管道阶段存在误差向下传递的缺点,与句子级别的事件抽取相比,篇章级别的事件抽取更注重对神经网络模型的长范围依赖。因此,我们提出一种端到端的模型进行事件的抽取,利用句子和文档的特征进行特征融合,提出了一种集成混合特征的篇章级别的事件抽取方法,该事件抽取方法以DMCNN和BiLSTM为主,结合自注意力机制和CRF。并且在MUC-4数据集和CEC数据集上评估本章提出的模型,实验结果表明我们提出的模型优于先前的工作。

参考文献(略)