本文是一篇计算机论文,笔者结合本文提出的模型,设计并实现了一个基于知识超图的关联知识发现系统。实现在知识库中发现与输入信息相关联的知识,并且能够查询指定知识。满足相关的系统需求的同时验证了模型的可用性。
第一章绪论
1.1研究工作的背景与意义
在如今的大数据时代,人们获取的信息和知识以指数级别的速率增长,知识的范畴愈发广泛,涉及的层次也逐渐深入,如何记录和使用这些知识是人类社会发展的方向之一。随着人工智能领域的不断发展,许多构想从理论研究逐步走向实际应用,包括智能问答系统[1]、个性化推荐系统[2]、信息检索系统[3]等。这些应用的背后离不开知识的支撑,但知识的结构难以存储到传统数据库中,为此,谷歌公司于2012年提出了一种名为知识图谱的知识库应用形式,并将其应用到了谷歌搜索引擎中。知识图谱以三元组的方式组织真实世界中的事实,将冗杂的文本信息转换成图的形式,解决了知识推理不理想的问题,并且知识图谱的知识组织形式更为切合人类对世界的认知。因此,出现了Freebase[4]、Yago[5]、DBpedia[6]等大型知识库,其中包含了百万级的实体和千万级的事实元组。
然而知识图谱中只能将知识组织成二元关系,即只包含1个关系和2个实体。但是,在Freebase知识库中,有超过1/3的实体在多元关系中出现过,并且有超过61%的关系类型是多元关系,多元关系是可以包含超过2个实体的关系。可以发现,随着知识表示形式不断复杂化,二元关系不足以对所有知识进行组织和表示,需要使用由更高维度的多元关系组成的知识超图进行知识的表示和存储。知识超图同为图结构的知识库,它以任意数量实体之间的多元关系的形式存储真实世界中的事实,知识超图可以被视为知识图谱的一种泛化形式。
1.2国内外研究现状
多元关系链接预测算法是将关系及实体表示成低维向量空间中的嵌入,将关系及实体中所蕴含的信息学习到相应的嵌入中,然后通过嵌入计算的结果确定现有的实体之间未知链接。
研究的初期,知识超图链接预测常采用基于规则的方法,将关系看作谓词,实体看作变量,通过设置推理规则与约束条件进行简单计算。马尔可夫逻辑网络(Markov Logic Networks,MLN)[7]第一次将概念图和一阶谓词逻辑相融合,该模型的逻辑公式中加入了概率,使其假设性太强。关系逻辑回归(Relational LogisticRegression,RLR)[8]在关系模型中加入逻辑回归,从而改进了MLN模型。但是基于规则的方法学习能力有限,不能够处理大规模数据。目前,多元关系链接预测算法模型主要分为三类:基于翻译、张量分解和神经网络的模型。
基于翻译的模型将实体和关系嵌入到低维向量空间,随后利用关系转换实体嵌入,从而捕获实体和关系的联系,最后使用学习的向量表示进行链接预测。文献[9]提出的一款将词表征为实数值向量的高效工具Word2vec,可通过词之间的距离判断语义相似性,同时发现了语义相似的词向量之间存在平移不变性,如v(King)−v(Queue)≈v(Man)−v(Woman),其中v(x)为单词x的词向量表示。文献[10]受该发现启发提出了TransE模型,将三元组中的实体和关系表示成低维向量,将关系理解为从头节点到尾节点的平移转换。具体来说,针对图中每个三元组(h,r,t),它们之间的嵌入表示应该尽可能满足h+r≈t。然而该模型不能有效处理非一对一的关系,为解决该问题,TransH[11]将关系拟合成一个超平面,从而将实体投影到关系所在的平面空间。
第二章相关原理及技术
2.1多元关系知识超图概念介绍
知识超图是一种超图结构[37]的知识图谱,以图结构存储真实世界中事实的知识库。知识超图中采用多元关系表示事实中实体之间的关联,多元关系由若干实体和描述实体之间逻辑关联的关系组成。例如,图2-1中的事实“博尔特在2008年北京奥运会上获得男子100米项目的金牌”,其中涉及的五个实体“博尔特”、“2008年”、“北京奥运会”、“男子100米”和“金牌”是一个“人物-时间-赛事-项目-奖项”的五元关系。
知识超图可以看作是知识图谱的推广,传统知识图谱采用二元关系的方式存储真实世界中的事实。但是现实世界中的事实很大一部分是由多元关系组成。另外,将多元关系事实拆分成若干二元关系会导致部分信息的丢失,如上文中提到的“博尔特-2008年-北京奥运会-男子100米-金牌”五元关系无法在保证信息完整性的前提下进行二元关系拆分,文献[12]证明了通过星形扩展将多元关系转换成二元关系会导致结构信息丢失。
2.2链接预测技术概括
知识超图链接预测(即多元关系链接预测)目的是通过学习已知的实体之间的链接预测未知多元关系事实,所以能够用于对知识库进行补全,同时可以在此基础上推动基于知识超图的下游任务,在推荐系统[38]和智能问答系统[39,40]等领域得到了广泛的应用。本节分别对基于翻译、张量分解和神经网络的链接预测算法中比较具有代表的模型进行介绍。
2.2.1基于翻译的模型
基于翻译的模型旨在多元关系事实中,将关系看作是实体之间进行的某种转换操作。也就是说,基于翻译的模型通常由关系进行翻译后,根据实体之间的距离衡量事实的合理性。最有代表性的模型是M-TransH[12],它是受TransH[11]的启发,将关系超平面的想法引入到多元关系中。为每一个超关系设置一个超平面,将属于同一个元组实体先进行投影,然后计算元组得分。
近年来,深度学习技术在计算机视觉、自然语言处理等诸多领域得到了广泛发展,主要用于处理语言和图像等具有平移不变形的数据。但是很难有效解决图数据的处理问题。而图作为描述关系类数据的普遍性表示方法,能够高效地表示出实体之间的复杂关系。
因此,Marco Gori[46]等人于2005年首次将图结构数据与深度学习相融合融合,提出了图神经网络的概念,使得深度学习在图数据方面得到有效利用。在本小节中,首先介绍几种常见的图神经网络,然后对其通用设计流程图进行说明。
第三章融合邻域结构和有向性约束的链接预测模型.............................19
3.1引言.......................................19
3.2融合邻域结构和有向性约束的链接预测模型................20
第四章基于自监督学习的关系间信息交互框架...........................35
4.1引言..........................35
4.2基于自监督学习的关系间信息交互框架..........................35
第五章关联知识发现系统设计与实现..............................49
5.1系统需求分析.....................................49
5.1.1功能需求分析............................49
5.1.2系统用例图设计........................50
第五章关联知识发现系统设计与实现
5.1系统需求分析
本小节对关联知识发现系统进行相关的需求分析,首先对系统的功能需求进行分析,包括数据与存储、关联知识发现和数据查询功能,其次设计整体系统的用例图,便于开发人员了解系统功能结构。
5.1.1功能需求分析
(1)数据与存储
本系统采用的数据源是公开的知识超图数据集Wikipeople[24],这是一个从Wikidata中提取的关于“human”类型实体的多元关系数据集。该数据源为本系统提供知识基础,适用于本系统的开发。本系统的数据包括数据源中的知识和用户信息等系统管理数据,因此本系统的数据存储分为三部分,分别为采用图数据库Neo4j存储知识超图,采用关系型数据库MySQL存储系统管理数据,采用非关系型数据库Redis存储系统运行时热数据,从而完成数据的底层存储。
(2)关联知识发现
关联知识发现是本系统中最重要的部分。其主要功能为,首先实现对用户输入语句的识别和解析,然后基于识别出的信息在知识库中匹配相关联的知识,最后将相关联的知识返回给用户。具体来说,用户以语句的形式将用户信息输入到关联知识发现系统中,系统通过命名实体识别技术对句子中的实体进行抽取,然后基于实体和句子信息发掘相关联的实体和多元关系知识。该模块包含用户输入功能、语句解析功能、知识表示功能和关联知识发现功能。
第六章全文总结与展望
6.1全文总结
知识超图作为知识图谱的推广,能够建模任意数量实体之间关联,对多元关系事实具有知识组织和表示方面的优势。但由于知识库构建过程的局限性,使其存在大量的知识缺失,所以通过多元关系链接预测补全未知的实体间链接受到众多研究者的关注。本文以多元关系链接预测技术为核心,学习和分析现有模型,设计并实现了融合本文改进思路的新模型,从而改善了链接预测效果,并基于本文模型设计并实现了相关应用。具体而言,本文的主要工作内容包括以下四点:
1.相关理论和技术调研:针对知识超图及知识图谱的链接预测算法进行调研,详细了解多元关系链接预测的关键技术和相关原理,介绍目前该领域的研究进展及相关技术方法,分析对比现有方法,发现当前模型中缺乏的或者考虑不足的地方,并基于此提出了本文的主要模型。
2.针对实体邻域信息和多元关系的有向性,搭建了融合邻域结构和有向性约束的链接预测模型。由于知识超图的结构复杂性,现有研究通常是将多元关系转换成二元关系的方式进行实体邻域信息的学习,这会导致多元关系中信息的丢失,不能够捕获完整的邻域结构信息,因此本文首先提出多元关系信息传递的图注意力网络,以元组-实体对为基本单位学习完整的邻域结构信息。其次基于知识超图的有向性提出有向性约束建模网络,同样将该结构信息更新到实体嵌入中,增强关系对实体兼容性的感知能力。最后将两种类型的结构信息融合,从而为实体、关系和位置学习合适的嵌入表示,改善了链接预测效果。
3.针对元组间信息学习的问题,构建基于自监督学习的关系间信息交互框架。首先,本文设计了一种超图转换方法,用于生成构建关系间关联的超边间关系图,并在此基础上应用基于图划分的边简化策略,可以在减小图规模的同时增强子图内的信息关联性。然后通过图卷积神经网络学习关系节点嵌入,并采用自监督学习的方式最大化两网络学习到的嵌入表示之间的交互信息,使得该框架能够将关系间的交互信息融入到主线模型中,增强整体模型学习图内信息的能力。最后通过实验验证了框架的有效性。
4.结合本文提出的模型,设计并实现了一个基于知识超图的关联知识发现系统。实现在知识库中发现与输入信息相关联的知识,并且能够查询指定知识。满足相关的系统需求的同时验证了模型的可用性。
参考文献(略)