计算机论文范文代写:面向有色冶金领域的知识图谱构建方法探讨

发布时间:2023-10-07 16:21:22 论文编辑:vicky

本文是一篇计算机论文,本文使用了知识图谱构建技术,对其中涉及到的数据集构建、命名实体识别和关系抽取展开了重点研究,最终建立了面向有色冶金领域的知识图谱可视化平台,实现了有色冶金产业中、企业内、企业间知识的结构化和系统化的转变。

第一章 绪论

1.1 研究背景及意义

有色金属又称非铁金属,是铁、锰、铬以外的所有金属的统称,有色金属不仅是工业生产当中重要的基础原材料之一,同时因为有色金属的不可再生属性,它也是我国非常重要的战略资源。有色冶金工业就是以有色金属为核心的一系列相互联系、相互依存的产业链,它包含了选矿、矿产开采、矿物冶炼、金属加工、终端消费和再加工等环节。同时有色冶金是典型的流程工业,在生产和服务过程当中其原料种类来源、工艺技术流程都相当复杂,并且在具体的生产中往往不只有生产企业本身,而是会有众多企业和相关技术人员共同参与到生产和服务流程当中,所以其流程中所包含的信息量很大。但是现在大多数有色冶金企业都忽视了生产过程当中所积累知识和信息的存储,而且巨大信息量同时也使得知识和信息的积累比较困难,这就导致了企业在生产服务当中的资源浪费和效率的下降。

Google于2012年提出了知识图谱(Knowledge Graph)[1]的概念,它可以将现实世界中的概念及其相互之间的关系转化为结构化的知识库,使得现实存在的信息资源能够以一种更为直观的方式让人们去理解和评价,并在此基础上实现知识的推理和扩充。目前,知识图谱已经被广泛地应用于各个领域,如企业信息领域的企查查知识图谱和天眼查知识图谱,搜索引擎中的百度搜索、必应搜索,语音助手领域的小爱同学和Siri等。知识图谱当中的知识存储、关系链接可以很好地解决有色冶金领域中知识和信息的存储问题,在帮助提高企业生产力、适应外部变化、提高用户满意度和增加盈利能力等方面都具有积极的作用。

1.2 国内外研究现状

1.2.1 知识图谱研究现状

随着技术手段的逐渐进步以及信息资源的不断丰富,知识图谱也从一开始的人工构造转变为了基于人工智能的自动化搭建。现阶段,根据知识图谱中知识收集和获取方法的不同,知识图谱可以分为如下四种类型[2]。

(1)人工构建的知识图谱:早期的知识图谱均是通过人工的方式进行创建,如WordNet[3]和Cyc[4]知识图谱。WordNet知识图谱是由美国普林斯顿大学构建的一个语义词典检索系统,与其它标准词典不同的是,它将所有的词分为名词、动词、形容词和虚词,并采用了词义来将所有的词组织起来。Cyc知识图谱是由MCC公司自1984年开始创建的常识知识库,其知识库中的数据主要由Term和Assertion构成,Term指知识库中的实体定义及其概念,Assertion为Term之间的关系。Cyc知识图谱以一种形式化的方式直观的对其中包含的知识进行了描述,尽管形式化的方式可以让人们对知识进行更好地理解,但是也造成了Cyc知识图谱可扩展性的不足。

(2)基于群体智能的知识图谱:基于群体智能的知识图谱构建方式类似于百度百科和维基百科的构建方式,即通过向多人开放并进行维护的知识库,例如Freebase[5]和DBPedia[6]知识图谱。Freebase是一个包含大量元数据的知识库,其中大部分内容都是其他社区成员提供的,其知识库由实体(Topic)、类型(Type)、域(Domain)和属性(Property)四种类型的数据构成。DBPedia是通过抽取维基百科数据实现的一种知识库,它采用了一种RDF(Resource Description Framework)[7]语义数据模型,其总共包含了30亿的RDF三元组。

第二章 相关理论与技术

2.1 知识图谱构建方式

早期知识图谱的构建方式都是通过自上而下的方法进行构建,例如Freebase和Cyc知识库就是预先定义好知识的结构和目录,再通过填充方式对知识库进行完善。随着科学技术的逐渐进步,以及数据自动抽取技术的不断优化和提高,现在主流的知识图谱构建流程都是采用自下而上的方式进行构建,例如微软构建的Satori[50]知识库和Google提出Knowledge Vault[51]知识库。知识图谱自下而上的构建流程如图2.1所示,在这个流程当中结构化数据、半结构化数据、非结构化数据和第三方知识通过知识抽取、知识融合和知识加工三个处理流程逐渐演变为知识图谱。

计算机论文怎么写

(1)知识抽取:知识抽取就是利用人工、机器学习或深度学习技术从网页等数据来源抽取出半结构化或结构化知识的过程。知识抽取包括实体抽取和关系抽取两部分,实体抽取可以查找出原始文本中预定义好的实体类型,如企业名称、产品名称、技术名称等,并依此对知识图谱中的内容进行填充。而关系抽取就是在实体抽取的基础上,从原始文本中提取实体之间的语义联系,从而进一步丰富知识图谱中实体间的相关性。

(2)知识融合:在知识抽取过程中数据的来源是多种多样的,除了网页上的半结构化数据,可能还会涉及到数据库中的结构化数据以及来自第三方的知识。因此在构建知识图谱时,就需要统一这些实体及其关系,使来自不同数据来源的同一实体和关系进行实体及关系的合并。通过这种方式,就可以消除不同实体及关系来源所导致的歧义和冗余,同时加入的第三方知识和结构化数据也可以提高知识图谱的可用性和多样性。

2.2 神经网络模型

2.2.1 双向长短时神经网络

传统的神经网络模型在处理文本数据时通常不能对上下文的语义信息进行识别和处理,而RNN通过将上一时刻的输出作为当前时刻的输入,实现了上下文信息的交互与处理。但是普通的RNN会存在梯度消失和梯度爆炸的问题,而LSTM则针对以上问题对RNN进行了改进。相比RNN,LSTM在学习的过程中可以对高价值的信息进行保留,将多余的信息删除,因此LSTM在长距离的文本当中能更好地识别存在于上下文中的深层语义信息。但是单一的LSTM只能识别文本当中从前到后的语义信息,而BiLSTM则是由两层LSTM构成,两层LSTM分别对文本两个方向的语义信息进行提取,所以BiLSTM可以更好地捕获文本的双向语义。

LSTM的结构如图2.2所示。在图2.2中,向量t1c−经过LSTM然后以tc作为输出,在整个向量的传输过程中只是经过了简单的线性操作,这样可以实现长期的记忆保留。对于信息的更新和输出,LSTM则通过一种门控机制进行了实现。

首先是删除操作,LSTM可以通过遗忘门对输入进来的向量进行删除操作,遗忘门的模型结构如图2.3所示。在遗忘门中,输入t1h−和tx通过sigmoid函数运算得到输出tf,其中tf是一个数值大于0小于1且形状和t1c−相同的向量,这样再和输入进来的向量t1c−进行线性运算时,就可以控制向量t1c−的信息通过比重。

第三章 有色冶金领域数据集获取与处理 ...................... 23

3.1 数据集收集与清洗 ...................................... 23

3.2 实体类别及其关系类别定义 ..................... 24

3.3 数据集标注 ..................................... 25

第四章 MEB命名实体识别模型 ............................ 28

4.1 设计思想 .............................. 28

4.2 模型构建 ............................. 28

第五章 BA关系抽取模型 ................................ 37

5.1 设计思想 ................................... 37

5.2 模型构建 .................................... 38

第六章 知识存储及知识图谱可视化平台搭建

6.1 知识存储

6.1.1 模型抽取知识的存储

由于我国有色冶金工业分布广泛,全国范围内有11000多家有色冶金相关企业,其中在云南、广西、新疆、内蒙古和甘肃的企业数量最大,均超过了500家。而且在有色冶金工业内细分产品和产业链非常多,包括了矿山开采、矿物熔融、产品铸造和汽车军工等众多上中下游领域,所以建立全国范围内的有色冶金知识图谱难度很大。因此为了最后知识图谱的完整性与可用性,本文针对甘肃省的有色冶金工业进行了知识图谱的储存。甘肃省是中国著名的“有色冶金之乡”,是全国重要的有色冶金工业基地,同时有色冶金产业也是甘肃省的支柱产业,所以选择对甘肃省的有色冶金产业进行知识图谱的构建与存储是具有代表性和可行性的。

在建立好MEB命名实体识别模型和BA关系抽取模型之后,本文按照有色冶金数据集的构造方法,利用网络爬虫根据设定好的关键字,从新闻媒体平台、有色冶金领域网站、企业官方网站、专利信息平台和期刊论文平台爬取与甘肃省有色冶金工业相关的文本。最终收集到了5000多条相关文本,经过格式化之后输入到已经训练好的模型中提取实体及实体间的关系,并储存在CSV文件当中。

计算机论文参考

总结展望

本文针对有色冶金产业内企业上下游结构复杂、工艺流程众多导致的知识积累与存储的困难,以互联网中的半结构化数据和第三方结构化知识为数据源,使用自下而上的知识图谱构建方法实现了对有色冶金产业中、企业内、企业间的结构化知识存储及可视化平台的构建。同时,本文也重点对建立有色冶金领域数据集、构建有色冶金命名实体识别模型、构建有色冶金关系抽取模型、有色冶金知识存储及知识图谱可视化进行了研究,主要研究成果如下:

(1)针对有色冶金领域数据集缺失的问题,使用网络爬虫技术从新闻媒体平台、有色冶金领域网站、企业官方网站、专利信息和期刊论文5个数据来源进行爬取。在对获得数据进行数据清洗之后,使用Label Studio标注工具和BIO标注方法对数据进行了标注,并进行了实体关系和数据集格式的定义。最终获得实体类别6类,实体间关系38种,实体总数98965个,实体关系总数13235条。

(2)在有色冶金命名实体识别方面,本文基于MRC框架、ERNIE和BiLSTM构建了MEB命名实体识别模型。在模型中本文针对现有命名实体识别模型的不足和有色冶金领域数据集的特点,设计了一种多输入信息融合机制和多层嵌套实体识别器,提高了模型对有色冶金命名实体识别的效率和准确率,并能尽可能输出原始文本当中的全部实体。

(3)在有色冶金关系抽取方面,本文基于BiLSTM和Attention构建了BA关系抽取模型。在该模型中本文设计了一种实体指针输出器,通过指针的方式输出原始文本当中所有可能的实体组合,并通过特征融合的方式来丰富文本当中的语义信息,尽可能识别原始文本中所有的关系。在关系抽取时将关系生成模式转变为关系匹配模式,提高关系抽取的准确率。

参考文献(略)