本文是一篇计算机论文,本文的主要研究内容包括构建基于中文财经新闻的事件间多关系语料库,并针对现有方法中少有研究事件间多关系和跨句事件关系的问题,构建字符级依存图来编码句子间结构信息,引入关系图卷积模型,进而提出基于关系图卷积网络的事件间多关系识别模型。
1绪论
1.1研究背景及意义
随着互联网的蓬勃发展以及大数据时代的到来,人们获取知识的方式发生了深刻变化。相较于杂志或报纸,现在人们更多地通过互联网获取信息。而互联网上每天产生的新闻报道是海量且杂乱无章的,每个用户在一定时间内浏览的信息又极为有限,只能涉及信息空间的一小部分,用户感兴趣的内容可能无法及时被发现。因此,我们需要依赖机器自动从海量数据中提取所需的关键信息。信息抽取[1]任务就是从大量文本中提取出具有价值且能引起人们兴趣的信息。根据用户需要提取的具体信息类型可以细分为实体识别、事件抽取、关系识别等任务。
其中,关系识别任务的定义为:在给定的文本中,给出两个文本描述(Mention),需要识别它们之间的关系类型。这种关系识别任务根据文本描述的不同类型,大致可以分为实体关系识别和事件关系识别两类。
实体关系识别任务中,文本描述的类型为实体。如在“张三毕业于某某大学”中,预先定义好的实体为“张三”和“某某大学”。实体关系识别需要识别出实体对间具有“毕业于”的关系。
与实体不同,事件是一个更为宽泛的概念。事件作为一种动态语义单位,其包含的信息相比实体更为丰富,也更符合人类的认知习惯。目前针对事件的定义较多,并没有统一的定义。根据目前应用较为广泛的自动内容抽取任务[2]中的描述,事件被定义为在特定时间和地点发生的、涉及多个角色参与的具体事情,这些事件常用于描述状态的变化。
1.2国内外研究现状
本节对近年来国内外关于研究实体关系识别和事件关系识别的文献进行了分析,发现目前大多数的研究工作都聚焦于英文文献,相比之下,中文事件关系数据集则相对较为匮乏。事件关系的研究也大多集中于时序关系或因果关系等特定类事件关系,多种事件关系的研究较少。下面分别介绍实体关系识别和事件关系识别的研究成果。
1.2.1实体关系识别
实体关系识别通过分类方法来实现,通常被看作多类别分类问题。目前,实体关系识别方法研究按照研究方法的演进依次分为三种:基于规则、传统机器学习和深度学习的方法。
基于规则的方法通常需要领域专家事先制定规则,然后利用相关方法或工具对语料进行分析和分类。比如Fundel等人[4]采用句法分析工具生成句法依存树,再根据依存路径上两个实体的位置设计相应的规则。但是,这种方法设计的规则可迁移性较差,不适用于其它任务。相比之下,基于特征向量的方法更加灵活。这种方法通过从文本中抽取有效的语义特征,然后采用机器学习方法学习抽取的特征来训练出分类模型。Kambhatla等人[5]采用最大熵模型将文本中学习到的语法、词汇和语义特征组合起来,以提取语义信息。Zhao等人[6]在Kambhatla的研究基础上对不同信息层次的信号进行排序和综合。Zhou等人[7]在Kambhatla的实验基础上引入了WordNet和本词组块信息,并采用支持向量机(Support Vector Machine,SVM)作为分类器。Culotta等人[8]在其研究中采用条件随机场(Conditional Random Field,CRF)技术,来学习上下文和关系模式,以便提取实体之间的关系。基于特征向量的方法不需要事先预设规则,因此具有更高的可迁移性和适用性。
2相关理论与技术简介
2.1事件与事件关系概念
2.1.1事件
当前对于“事件”的定义存在较多不同,缺乏统一的标准。例如,由美国国防高级研究计划委员会(Defense Advanced Research Projects Agency,DARPA)主办的话题识别与跟踪(Topic Detection and Tracking,TDT)评测会议提供了关于话题和事件的定义[40],将话题定义为“一个种子事件以及与其直接相关的所有事件(Event)与活动”[41],将事件定义为“在一个确定时间、确定地点发生的事情”[42]。而自动信息抽取(Automatic Content Extraction,ACE)评测会议则将事件定义为包含施事者和受事者的特定事情,通常描述为动作的发生或状态的变化。在佛罗里达州大学的研究中,Zwaan[43]将每个单句视为一个“事件”,并将事件定义为句子级别的,只有当句子包含事件特征时才构成事件实例,否则为非事件实例。Eisenberg和Sheriff[44]以及Wan[45]等人认为,行为或状态本身就是一个事件。
因此,为了明确本文所使用的事件定义,本文从汉语学中的“三个平面”理论(语法、语义、语用)[46]出发,综合考虑语句的语法结构和语义表达作用,给出了事件的定义。
在语言学中,一个语句的并列成分应该具有相同的地位或性质。因此,在对应的句法结构上会采用某个并列符号进行关联和表示。谓语是语句的核心词,通过组合主语和宾语等成分,能够反映整个语句的主干含义。通过多个谓语的并列组合,可以实现在一个语句中表达多个主干含义的目的。因此,对于一个语句,我们将由其包含的某个谓语通过组合若干成分后能够单独表达语句某个主干含义的部分称为一个事件。其中,由事件包含词语按照原始语句中的顺序组成的句子称为事件语句。在语句句法依存结构上,这样的谓语应具有相同的地位,它们并列支撑整个语句,事件中的所有其他成分均依存于该谓语。
2.2深度学习模型
2.2.1循环神经网络
循环神经网络(RNN)是一种常见的神经网络结构,主要用于处理序列数据,如文本、音频和视频等。相较于传统的前馈神经网络(Feedforward Neural Network),RNN的特殊之处在于其具备反馈机制,可以传递前一时刻的信息到当前时刻,从而实现对序列数据的建模和预测。
RNN的结构包含输入层、隐藏层和输出层,RNN结构图如图2.1所示。其中,隐藏层由循环单元(Recurrent Unit)组成,它在当前时刻接收输入和上一时刻的隐藏状态,并使用特定的计算方式输出当前时刻的隐藏状态,然后将该状态传递到下一时刻。因此,RNN具有记忆功能,可以在处理序列数据时保留之前的信息。在训练过程中,RNN使用反向传播算法对模型参数进行优化,以更好地学习序列数据的特征和规律。
3中文财经新闻的事件间多关系语料库构建...............................14
3.1中文财经新闻中事件关系的定义............................14
3.2数据收集..........................................17
4基于关系图卷积网络的事件间多关系识别.............................26
4.1任务模型结构....................................26
4.2任务模型各层描述......................................27
5总结与展望......................................39
5.1本文工作总结.....................................39
5.2下一步工作展望....................................39
4基于关系图卷积网络的事件间多关系识别
4.1任务模型结构在任务模型结构方面,MERG模型主要分为4个模块:
(1)编码层。该层使用BERT预训练模型对输入的事件对进行编码,得到事件对的初始向量表示,并通过平均池化得到事件对上下文的语义表示。
(2)关系图卷积神经网络层。该层针对事件对构建句法依存图,图中包含字节点和4种不同类型的边,利用R-GCN对依存图进行建模,主要用于捕捉事件的依存信息和事件间的结构信息。
(3)特征融合层。该层将编码层获得的事件对表示、关系图卷积网络层中得到的事件对表示、事件触发词表示和触发词之间Hadamard积得出的表示融合拼接,作为最终分类器的输入特征。
(4)输出层。该层将融合的特征输入全连接层,并采用sigmoid函数作为激活函数将每种关系的概率映射至0到1之间,通过设定阈值,取大于阈值的每种关系作为该事件对的预测关系。
模型的整体结构如图4.1所示。
5总结与展望
5.1本文工作总结
本文的主要研究内容包括构建基于中文财经新闻的事件间多关系语料库,并针对现有方法中少有研究事件间多关系和跨句事件关系的问题,构建字符级依存图来编码句子间结构信息,引入关系图卷积模型,进而提出基于关系图卷积网络的事件间多关系识别模型。本文的研究工作主要包括以下两个方面:
(1)中文财经新闻的事件间多关系语料库构建
语料库是自然语言处理任务的基础,但目前针对多类型事件关系的语料库非常稀少。特别是在财经领域,至今尚未出现多类型事件关系的中文语料。本文对中文财经文本的特点进行了分析,并给出了事件关系的定义。随后,本文设计了合理的标注方案和标注策略,对语料库中包含的事件相关数据进行了统计分析,并对语料库的质量进行了评估。
(2)基于关系图卷积网络的事件间多关系识别
针对现有方法在事件间多关系和跨句子事件关系方面的不足,本文提出了一种新的方法,即基于关系图卷积网络的事件间多关系识别方法(MERG)。具体来说,MERG以事件对作为输入,使用BERT模型编码后,通过构建异构依存图,并采用R-GCN对依存图进行建模,捕捉事件对结构信息和句法信息。为了丰富事件语义表示,采用Hadamard积构造事件交互语义表示。再将各层得到语义表示拼接成事件对特征,构建分类器来识别事件间多关系。在中文财经新闻事件间多关系语料库上,实验结果表明,MERG能够有效利用各层设计的事件特征来进行事件间多关系识别。
参考文献(略)