代写计算机论文案例:基于知识嵌入表示的民族文化知识问答模型构建及推广探讨

发布时间:2024-09-15 11:37:26 论文编辑:vicky

本文是一篇计算机论文,笔者认为智能问答涉及多个领域、多种技术,未来也具有广泛的应用前景,但要想真正让计算机完全模拟人类问答的过程和准确率还存在一定的差距,相信随着知识图谱嵌入技术以及语义检索技术的发展,智能问答也将会迎来高速的发展。

第 1 章 绪论

1.1 研究背景与意义

文化与传统是一个国家经过历史的长河所沉淀的宝贵的精神财富。中国作为多民族国家,民族文化是中华文明中最重要的一环,是我国56个民族的精神财富和文化财产的重要体现。民族文化的推广与传播有助于提高文化认同感,这是人类对于内在精神架构的肯定,也体现了人类对于自身文化的归属意识[1]。

文化是一个民族的魂魄,是一个民族赖以生存以及蓬勃发展的根本。我国各个民族的人民共同孕育了丰富多彩的民族文化,令人熟知的有很多,例如民族民间工艺、民族乐器等,但与此同时,还有很多同样多姿多彩但鲜为人知的民族文化因其传统文化流传范围较窄、民族特色保存困难等问题,正逐渐消失在大众的视野中。因此,为了更好地留存以及推广现有的优秀民族文化,采用现代化的手段对体系庞大的民族文化知识进行存储,利用创新型民族文化应用提高民族文化传播的效率以及准确性。

传统的数据库[3]以及搜索引擎虽然可以解决存储与检索的问题,但是存在着很多缺点,例如传统数据库受制于其存储模式,在检索时无法高效处理复杂且多变的数据;搜索引擎[4]的工作原理是基于文本正则匹配的,难以真正理解用户的意图,对于用户的输入,会返回很多繁杂且与主题无关的网页,用户还需从中自行挑选出符合自己要求的文档,尽管搜索引擎会做一些简单的判断删除相似度较低的网页,但用户若想定位到自己需要的信息仍如大海捞针。

1.2 研究现状

1.2.1 知识图谱及嵌入表示

1.2.1.1 知识图谱研究现状

知识图谱[5]首次是由谷歌提出,受启发于语义网络,目的是优化Google搜索引擎的智能程度以及搜索品质。发展至今,知识图谱不仅仅可以看作是一种数据间的组织方式,将世间万物以一种形象的方式组织起来,也可以看成是一种以有向结构图为基础的语义网络图,用户可以用它进行智能问答等推理型任务。

目前知识图谱根据侧重点不同主要分为两大类,开放世界知识图谱以及领域知识图谱。开放世界知识图谱更加侧重于大规模常识,对知识的覆盖面比较大,比较典型的有Yago KB[10]、DBpeida KB[11]、 Wikidata[12]以及Wikipidia的WordNet[13]知识平台。在国内,中文大规模知识图谱起步较晚,早期的中文知识图谱往往都是采用人工构建为主,所以规模不大且领域局限性较强。学术界比较著名的开放领域知识图谱有复旦大学建立的CN-DBpedia[14]知识图谱,总计包含大约六千七百万条三元组;上海交通大学创建的zhishi.me[15]知识图谱以及清华大学构建的XLore[16]知识图谱,这是世界上首个大规模的中文和英文内容均衡的知识图谱,为后续跨语言系统的知识图谱提供了新的方法和手段。 

第 2 章 相关理论技术基础

2.1 知识图谱及相关技术

2.1.1 知识图谱相关定义

谷歌为优化搜索引擎的效果,在2012年提出了知识图谱的概念,知识图谱为组织、管理和理解海量互联网数据提供了一种新的技术手段。随着知识图谱的发展,其在个性化推荐、智能问答能搜索和自然语言处理任务中的应用价值也得以充分体现。

世界上客观存在的知识是无结构的,而知识图谱是有结构的。知识图谱将现实世界中一个个具体的事物抽象化为实体,并且将事物之间的关联性抽象化为了实体之间的关系,由此,事物之间的关系通过此模型构建出来,使得复杂的概念变得清晰明了。同时,特征工程的发展也促进了知识图谱的表示学习,使得知识可计算,由此知识图谱便具有了一定的推理能力,可以从语义的角度分析问题。现实世界中的事实也可以用知识图谱来表示,在知识图谱中,将一条事实表示为一个三元组,这些三元组也被称为知识,知识图谱就是由一系列知识所构成的。

知识图谱也可以被看作是一个巨大的、由大量节点和有向边构成的图,其中,节点表示为实体(Entity),节点之间的有向边表示了实体之间的关系(Relation)。三元组是由头实体、尾实体和关系组成的,是知识图谱的基础。

2.2 预训练语言模型

2.2.1 Transformer

RNN、LSTM等循环神经网络可以有效解决长时依赖问题,在长序列任务中有更优秀的表现,由于采用的顺序式结构,计算效率受到了严重的影响。即使很多学者围绕这些循环神经网络在其结构上进行优化,但是顺序处理数据的特点依然没有改变。Transformer[60]则是彻底改变了循环神经网络的模型结构,采用自注意力机制(Self-attention)和前馈神经网络(Feed-Forward Network),它根据文本内容来动态计算词与词之间的依赖关系并得到新的向量表示,并且在Self-attention的基础上,它将多个注意力机制进行了组合,形成多头注意力(Multi-head Attention)来学习不同纬度的特征。具体结构如图所示。

Transformer模型采用的是Encoder-Decoder的架构,两个部分其实结构类似,主要包含Mask掩码机制、Multi-head Attention以及Layer Normalization层。它采用的是带有查询-键-值(Query-Key-Value)的自注意力模块。

计算机论文怎么写

第3章 基于深度学习的民族文化知识图谱嵌入算法 ........................ 22

3.1 民族文化知识图谱的构建 .......................... 22

3.1.1 本体概念层构建 .............................................. 23

3.1.2 数据获取与预处理 .................................. 25

第4章 基于对比学习的无监督句嵌入模型 ....................... 36

4.1 模型结构 .................................. 36

4.2 训练目标及算法设计 ............................... 38

4.3 实验结果及讨论 ...................................... 39

第5章 民族文化知识复合式问答模型构建 .......................... 44

5.1 模型架构设计 ............................ 44

5.2 基于知识图谱嵌入的问答模型 .................................. 45 

第六章 民族文化知识问答系统设计与实现

6.1 相关技术介绍

6.1.1 MVC设计模式

MVC(Model-View-Controller)是一种框架设计模式,它将一个应用程序划分为三个不同的部分,包括模型(Model)、视图(View)和控制器(Controller),以实现应用程序数据和处理逻辑的分离。该设计模式的目的在于提高代码的可维护性和可扩展性,以及降低代码的耦合性。如图6.1所示。

模型(Model):模型负责处理应用程序的数据,包括数据的持久化、验证、计算和检索等。

视图(View):视图负责处理数据的显示,比如将数据转换成HTML或XML格式,以便在网页或其他客户端中显示。

控制器(Controller):控制器负责处理用户的输入,比如接收用户的输入并将其发送给模型,或者根据模型的返回结果决定用户的下一步操作。

计算机论文参考

各个模块看起来互相独立,却又互相关联。在我看来,MVC有两个重要的特质:三个模块各司其职,分别负责实现程序的视图部分、核心数据部分、控制部分;三个模块合理进行封装,对外暴露出可供使用的API接口。

第 7 章 总结与展望

7.2 研究不足及未来展望

智能问答近几年的发展速度是惊人的,同时文本在前人的研究基础之上进行的创新和改进也取得了相对理想的乘积,但是在实际使用中,问答的效果并不稳定,答案的生成与人类的直观感受还有一定距离。经过本文在模型设计过程中的思考,发现了以下的不足之处,从以下几个角度进行说明:

(1)基于知识图谱的问答,图谱的规模及深度是关键所在,这就要求数据集要包含更加丰富的领域信息,知识图谱的构建本来就是一个随着数据增长而不断迭代的过程,知识抽取的准确性也限制了知识图谱的规模以及可靠性。为此,后期的研究重点在于知识图谱的更新以及知识抽取的准确性提升。

(2)基于知识图谱嵌入的问答模型的关键点在于知识嵌入的质量高低,对于本文提出的知识表示学习方法,有以下几点可以继续提升,例如考虑融合关系路径信息的方式来进一步提高模型对组合模式的建模能力;尝试利用结构信息将模型与神经网络模型结合,实现动态知识补全。

(3)智能问答涉及多个领域、多种技术,未来也具有广泛的应用前景,但要想真正让计算机完全模拟人类问答的过程和准确率还存在一定的差距,相信随着知识图谱嵌入技术以及语义检索技术的发展,智能问答也将会迎来高速的发展。

参考文献(略)