本文是一篇计算机论文,笔者认为当前知识图谱因其强大的功能,被广泛运用在搜索引擎,数据挖掘等任务上。互联网中的数据规模日益变得庞大,因此如何将这些数据中蕴含的碎片化的知识收集起来构成体系的知识成为一项新的挑战。知识图谱将客观世界中存在的实体及实体间的语义关联通过图结构直观地呈现,能够为用户提供体系化的知识,受到了国内外学者的青睐。因此,如何去构建一个知识图谱已经成为该领域专家研究的热点。
第 1 章 绪论
1.1 研究背景及意义
目前,越来越多的人逐渐从互联网中获取数据。而这些数据中往往会包含着大量的隐性知识,但是对于这些隐性知识,人们往往无法直观的观察到。伴随着人们对知识的深入探索,许多搜索引擎以及自动问答系统开始涌现,用来满足人们对知识的追求[1]。但是这些系统往往很难展现出不同数据间的关联性,因而无法形成体系的知识。由此,一系列的知识图谱(Knowledge Graph)开始涌现出来[2],它主要是以图结构的形式对客观世界的知识进行表示。其主要功能就是描述我们所处的客观世界中存在的概念、属性、实体(Entity)及语义关联等,并以图结构直观地进行呈现。它为用户呈现的知识大多是结构化的,而非单独的信息。因此,用户能够通过它来了解不同知识之间的关联性。其强大的功能使得它能够被广泛应用在数据挖掘、情报分析等任务上。而构建高质量的知识图谱是提高知识查询准确度的重要前提。因此近年来,学者们开始逐渐深入研究如何去构建一个知识图谱。
知识图谱被划分成通用和领域知识图谱。对前者来说,它强调的是范围,因而前者对于实体的数目更加关注。而对于后者来说,它更强调储存的领域知识的精确度。然而,目前通用知识图谱的构建技术依然面临着知识不完全的严峻挑战,它为人们提供的服务仍远远无法满足人们的需求。为此,学术界和产业界将目光更多地投向了对领域知识图谱的研究。目前,社交[3]、电商[4]、金融[5]、医疗[6-8]、工业界[9]已成为知识图谱面向垂直领域落地应用的典型场景。而近年来由于我国的经济持续快速发展,人们对精神文化生活逐渐重视起来。当前我国电影行业迅速发展,如图 1.1 和图 1.2 所示,就中国电影产业发展分析报告发布的信息显示,2009 年到2018 年国内票房与观影人次都在破记录,电影国内市场增长态势十分明显[10]。但是随着电影产量的提升,互联网的电影数据质量也变得参差不齐。目前对于影视领域来说,许多互联网网站存储了大量的影视数据,像 IMDB、豆瓣、时光网等,这些网站的电影数据量庞大,能够有效地组织、利用以及挖掘这些数据背后隐含的影视知识成为一项重要任务。同时从这些良莠不齐的数据中获取的知识质量也是高低不等的。如果想要深层次的挖掘数据背后蕴含的信息,就需要将这些杂乱的、无结构的数据转换成有条理、结构化的数据,进而形成体系化的知识。它强大的功能使得面向影视行业构建知识图谱成为一项有价值的工作,实现了对影视行业电影知识的存储,并能够进一步对深层次的知识进行挖掘。
1.2 国内外研究现状
1.2.1 知识图谱的研究现状
当前,国内外对于知识图谱的构建探索技术已经趋于成熟。许多个研究机构也相继创建了一些大型的通用知识图谱,例如知心、DBpedia、YAGO 等。近年来,领域知识图谱逐渐开始新兴起来,像医学领域、新闻领域、商业领域[5]、农业领域以及复杂工业领域[9],足够可见领域知识图谱的流行性。但是它们的构建过程却存在着区别,主要体现在:(1) 通用知识图谱主要以常识为主,其构建过程高度自动化,而且所包含的知识大多是静态的、客观的、明确的知识,一般都是以互联网开放数据为主;而领域知识图谱主要是面向某一行业领域,构建过程是半自动化的,包含的知识大多是其相关行业领域的静态知识和动态知识。(2) 通用知识图谱比较注重知识的覆盖面,且更关注实体,多面对开放域,不要求高的准确性;而领域知识图谱多关注知识的深度,其更关注那些具有特定行业意义的领域数据,准确度较高。(3) 从知识融合的角度来看,通用知识图谱对数据的质量存在着容忍,需要提升数据的质量;而领域知识图谱通常从领域内部的数据中抽取知识,并通过一定的审核机制保证质量。经过上述的比较可以发现两者在构建过程中存在一定区别[11]。但在实际的工程实践中,两者之间也存在着较强的联系。在构建后者时可以借鉴前者的构建方法。但全盘接收通用知识图谱中的数据,也会引入大量领域不相关的信息,进而影响对领域知识的利用效果。因此,如果想构建更加完善的知识图谱,需要结合前者的广度与后者的深度。
第 2 章 相关理论与技术研究
2.1 知识图谱概述
近年来,伴随着人工智能的蓬勃发展,知识图谱逐渐衍生而来。起初,语义网的概念最先出现,经过不断地发展,知识图谱的概念开始出现。语义网和知识图谱之间存着异同点,它们都是将现实世界的概念抽象化,形成了知识库,其中知识库中的节点表示事物,边表达的是它们之间的关系。不同点在于后者更关注的是实体间的关联,而语义网更注重概念之间的联系。图 2.1 展示了知识图谱的发展历程。
因知识图谱的特性,各行业的研究者开始逐渐探索本领域知识图谱的构建。当前,规模较大的知识图谱主要有 Freebase[53]、DBpedia [54]、YAGO[55]等。除此之外,国内也相应出现了很多知识图谱,像知心、搜狗知立方。由此可见,知识图谱的广泛应用表明了它具有强大的功能。本文主要是面向影视领域构建知识图谱,将影视领域的不同实体之间的关联性表示出来。
2.2 知识融合方法概述
知识融合是知识图谱构建过程中的关键环节之一。对构建知识图谱来说,所需的数据通常是互联网中海量存储的非结构化数据(文本),然后通过知识抽取环节从数据中获得了知识。通常情况下,这一环节得到的数据依旧存在大量的错误信息,因此对这些数据和知识进行融合成为必要环节,这一过程通常称之为知识融合。知识融合涵盖两个重要的子任务:实体对齐和实体链接。这两个重要子任务分别在实体层次上从不同方面对数据进行整合,对错误信息进行剔除操作,保证了知识的质量。下面分别对这两个环节的重要方法进行介绍。
2.1.1 实体对齐方法
实体对齐任务主要是找出那些存在于不同知识图谱中但表示相同含义的实体。实体对齐方法主要分为两类:一类是基于匹配相似度的实体对齐方法,另一类是基于知识图谱嵌入实体对齐方法。
(1) 基于匹配相似度的实体对齐方法:这类方法主要是计算实体的相似度分数,进而对相似实体进行匹配。这些方法依靠用户定义的规则来对需要匹配的实体之间的属性进行选择。这类方法利用了实体的属性信息,但是针对属性类型多的领域,就需要设计不同的相似度函数。这种方法不仅会耗费大量的人力,还会大大增加工作量。
(2) 基于知识图谱嵌入的实体对齐方法:这类方法主要是基于翻译模型的方法,翻译模型简单且有效,这类方法的依据是对齐的实体在空间中的位置比较相近。在低维特征空间中,通过映射将实体和关系两者之间的语义信息嵌入到其中,来衡量两者的语义相似性。Bordes 等人首次提出了 TransE 模型,它是所有基于嵌入方法的理论基础。它的表示形式是将每个三元组表示为从头实体h到尾实体t 的向量,即 hr t 。该模型示意图如图 2.5 所示,它采用向量平移的方式,将关系向量r作为头实体 h 向量到尾实体向量t 的翻译,目的是所有三元组 (h,r,t) 都满足 hr 到t的距离最短。
第 3 章 基于 NovEA 模型的知识图谱实体对齐方法 ............................ 19
3.1 引言 ................................. 19
3.2 实体对齐技术分析 .............................. 19
第 4 章 基于多维粒度的知识图谱实体链接方法 ................................... 31
4.1 引言 ........................................ 31
4.2 实体链接技术分析 .............................. 31
第 5 章 面向影视领域的多层次知识图谱的构建方法 ........................... 41
5.1 引言 ........................................ 41
5.2 多层次影视知识图谱的定义 ............................... 41
第 5 章 面向影视领域的多层次知识图谱的构建方法
5.1 引言
当前由于互联网的普及,影视数据的规模日益庞大。同时这些影视数据中隐藏着大量的知识,它们之间存在着复杂的关联关系,但呈现方式却是混乱的、无序的,这会对人们寻求相关的影视知识造成阻碍。由于知识图谱自身的特点,它能够将抽象的知识之间的关系以图的形式展示,使知识的呈现方式更具有直观性。考虑到目前存在较少的影视领域知识图谱,因此本文对国内一些相关网站的影视数据进行了爬取,构建了数据集 Movie_data。并且针对影视领域的不同实体之间存在的复杂关联关系、数据来源众多、数据储存形式多样的问题,本章提出要建立一种多层次影视知识图谱。本文构建的多层次影视知识图谱能够分别将影视领域相关的同层次之间的实体以及不同层次的实体之间的关联性直观的表示出来,有助于研究者们挖掘影视领域深层次的知识以及知识之间的关联性,为数据挖掘、推荐系统以及情报分析等任务提供了一种新的解决方案。在第 2 章中,图 2.3 已经展示了构建多层次影视知识图谱的流程,本章将第 3 章和第 4 章提出的知识融合方法应用到多层次知识图谱的构建过程中,搭建了基于影视知识图谱的知识融合系统,为多层次知识图谱的质量提供了保证。接下来将详细去阐述如何构建多层次影视知识图谱。
第 6 章 总结与展望
6.1 总结
当前知识图谱因其强大的功能,被广泛运用在搜索引擎,数据挖掘等任务上。互联网中的数据规模日益变得庞大,因此如何将这些数据中蕴含的碎片化的知识收集起来构成体系的知识成为一项新的挑战。知识图谱将客观世界中存在的实体及实体间的语义关联通过图结构直观地呈现,能够为用户提供体系化的知识,受到了国内外学者的青睐。因此,如何去构建一个知识图谱已经成为该领域专家研究的热点。
本文将知识图谱应用于影视领域,对影视领域的多层次知识图谱的构建过程进行了探究,重点对构建多层次影视知识图谱过程中的知识融合两个相关子任务的方法进行了改进。本文主要完成的工作包括以下内容:
(1) 基于 NovEA 模型的知识图谱实体对齐方法
对于知识图谱来说,同一领域的不同层次知识图谱之间存储了不同的知识,而这些知识之间存在重复,也可以互相补充,因此可以将这些知识图谱中的相关实体进行对齐,形成一个更统一的知识图谱。本文综合分析当前的传统实体对齐方法和基于知识图谱嵌入的方法,发现它们都无法全面的利用知识图谱中实体的所有相关特征。因此针对以上方法的不足,本文提出了 NovEA 模型。本模型主要在当前知识图谱嵌入方法的基础上,充分利用了知识图谱中存在的属性三元组和关系三元组。本模型将实体任务分为谓词对齐模块、属性嵌入模块、结构嵌入模块以及实体对齐模块四个部分,这些模块分别学习了知识图谱的结构特征和属性信息特征。在属性嵌入模块,根据知识图谱的领域特征利用决策树算法对属性进行优先级排序,在实体对齐模块利用二元回归模型从结构和属性两个角度对得到的实体相似度结果进行度量。此外,二元回归模型动态地拟合了关系和属性之间的权重,更好地提升了实体对齐的效果。通过在多个真实数据集上与其他实体对齐模型进行对比,实验证明 NovEA 模型在实体对齐任务上取得了显著的改进。
(2) 基于多维粒度的知识图谱实体链接方法
实体链接指的是将抽取的实体与知识图谱中的候选实体正确地进行链接。该环节不仅能够提高所构建知识图谱的准确度,而且在发现新的实体时,还可以将其添加到知识图谱中,增加所构建的多层次影视知识图谱的覆盖面。针对现有实体链接方法忽视了知识图谱的结构信息导致链接准确度低的问题,该模型在传统链接方法的基础上,重点关注了知识图谱中候选实体的邻域信息。本方法将实体链接任务分为实体标记模块、候选实体生成模块和排序模块三个模块。在最后的排序模块中,分别将待链接实体的相关信息与候选实体的语义和结构信息从多个维度进行计算,得到候选实体的相似度分数,选出最匹配的候选实体。在三个真实数据集上与其他相同任务模型进行了比较,实验证明本文提出的多维粒度实体链接方法效果优于其他同任务模型。
参考文献(略)