基于深度学习的文本分类技术的探讨与推广

发布时间:2021-08-13 21:36:40 论文编辑:vicky
本文所研究的工作具体内容如下:(1)本文从文本分类的实际应用价值出发,综述文本分类相关研究的背景与意义。并且,本文论述了文本分类的相关任务,主要包括情感分析、主题分析、新闻分类等 3 个典型的文本分类任务和问题回答、自然语言推理等 2 个自然语言理解任务。特别是针对基于深度学习的文本分类技术进行了详细的阐述,主要包括基于 RNN 的文本分类模型、基于 CNN 的文本分类模型、基于胶囊网络的文本分类模型、混合分类模型、Transformer 和 Pre-trained 语言模型、基于图卷积神经网络的文本分类模型、基于无监督学习的分类方法和基于强化学习的分类方法。

第 1 章 绪论

1.1 研究背景及意义
图 1-1 各种领域之间的关系
图 1-1 各种领域之间的关系
自然语言处理(Natural Language Processing, NLP)是人工智能(ArtificialIntelligence, AI)的交叉学科,同时是该领域研究方向的热门,也是近年来发展最快的领域之一[1]。其中,关系如图 1-1 所示。自然语言处理领域包括命名实体识别、机器翻译、词性标注、指代消解、文本分类等任务,其中文本分类是自然语言处理中最常见也是最基础的任务,其目的主要是对文本数据进行整理、分类和挖掘,同时也是文本信息爆炸的有效解决方案。人工标注是文本分类最早的实现方式之一,此外,随着技术的进步,也可以通过自动标注进行。越来越多的文本数据在现实工业应用中占据主要地位,使得不断推动文本分类技术向前发展。现如今,以下几类方法是文本分类的重要分支,其中一大类是基于规则的分类方法(Rule Based Approach),另外一大类是基于数据的机器学习方法。基于规则的方法比较容易理解,首先需要定义各种分类的类别,将文本分类为不同的类别,然后根据专业的知识把待测的文本分类为以上各种类别,由此可见,这种方式需要及其深厚的专业知识;基于数据的机器学习方法是依据一种“数据思想”,从数据中发现潜在的联系,建立某种模型,最后完成分类。在建立某种模型的过程中,整体上需要分成两步。
.......................

1.2 国内外研究现状
关于文本分类的相关研究,国外学者们的研究开始时间比较早。在上个世纪五十年代左右,有的专家学者就已经开始了相关工作。
1958 年,IBM 公司的 HansPeterLuhn 以词频统计的思想为基础进行文章摘要的提取工作,并进行了许多开创性的研究,取得了不错的研究成果[3]。从此之后,大量的专家学者投身于文本分类的理论与实践研究中去,相继取得了一定的结果。但是,当时的分类算法是词匹配法,词匹配法的基本思想是基于规则的分类方法,该方法首先设定一个相关词,然后在待测文本中查找与相关词相近的词语,如果找到了相近的单词就分类为一种类别,由于此方法过于简单机械,分类效果不能达到预期。1961 年,Maron 以“贝叶斯假设”的思想为基础,认为文本中的特征是相互独立的,采用朴素贝叶斯分类的方法对文本进行分类,这极大推动了文本分类的发展[4]。1975 年,SaltonG 等人提出用于自动索引的向量空间模型——VectorSpaceModel[5],在实际用户的操作环境中对于普通文本的自动索引效果较好。在此基础之上,1977 年,Feigenbaum E A 首次提出了知识工程(KnowledgeEngineering)的概念,主要是解决知识信息的处理,如知识的分类、表示和推理[6],当时又把知识工程叫做应用人工智能,所以知识工程成为当时文本分类领域的主要技术手段。但是,这种技术手段一般通过人工定义规则来进行文本的有效匹配,并且必须由相关领域的专业人员来处理,分类方法过于单一,从而导致很难达到预期的分类效果。以上基于知识工程的分类方法是比较麻烦的,为了解放人力资源,这种方式的文本分类方法逐渐被放弃,此后衍生了新的基于机器学习的分类方法。1990年,由DeerwesterSC等人开发的潜在语义分析(LatentSemanticAnalysis,LSA)是最早的机器学习嵌入模型之一[7],LSA 是一个小于 100万个参数的线性机器学习模型,以 200000 个单词为训练对象。这种分类方法首先需要一个数据集——训练集,该集合是已经被分好类别的集合,然后在这个训练集中进行训练,通过某种分类方法,最后可以把待测的文本分成各种类别。与基于知识工程的文本分类方法相比,该方法不需要专业人员的参与,并且能够适用于各种领域的文本集合。正是机器学习的兴起,大量研究人员重新寻找新的文本分类方法,这种文本分类方法成为九十年的主流思想。2003 年,Bengio Y 提出一个基于 1400 万个单词训练的前馈型神经网络语言模型[8],当使用更大量的训练数据开发出更大的嵌入模型时,对于文本分类领域的许多分类方法就开始逐渐流行起来。
...............................

第 2 章 文本分类及其相关理论

2.1 文本分类的相关任务
文本分类是将文本,如推文、新闻文章、客户评论等分成有组织的类别的过程。典型的文本分类任务包括情感分析、新闻分类、主题分类和自动问答等具体的分类任务。通过基于深度学习的文本分类方法可以将一系列文本作为输入,进而将许多自然语言理解(Natural Language Understanding, NLU)任务,如抽取问题回答、自然语言推理等转换为文本分类任务。本节介绍 5 个文本分类任务,其中包括 3 个典型的文本分类任务和 2 个自然语言理解任务。
(1)情感分析。情感分析是 NLP 的热门研究课题。情感分析出现在产品评论或是电影评论等数据集中,将相关评论提炼出具体的类别——极性或观点。一般情况下,该任务既可以分为二分类问题也可以是多分类问题。比如,电影的评价可以分为“积极”的评价,也可以分为“消极”的评价;某种商品的评价可以分为“好”、“中”、“坏”三个类别的评价等。
(2)主题分析。该文本分类任务也称为主题分类,旨在识别文本的主题,例如某些产品评论是关于“客户支持”还是“商品易用性”等。
(3)新闻分类。新闻文本是最重要的信息来源之一。同时也是不断变化的,通过对新的新闻文本进行分类,可以有效提升新闻用户的体验。将文本分类技术应用到新闻分类,本部分内容将在第 4 章具体展开。
(4)问题回答(Question Answer, QA)。QA 任务有两种类型——抽取式和生成式。抽取式 QA 首先需要具备一个问题和问题的多个答案。然后,在给定的问题中选择一个答案,看答案是否是正确的。生成式 QA 则需要动态地生成问题答案。值得注意的是,这两种 QA 任务常常需要不同的数据集合。
...................

2.2 基于深度学习的文本分类方法
2.2.1 基于 RNN 的文本分类模型
基于循环神经网络(Recurrent Neural Network, RNN)的模型是基础的文本分类模型之一,该模型整体上分成两大模块。其中,第一模块是特征提取,第二模块是基于 RNN 的分类器。首先,在特征提取部分,将句子分词,把单词进行向量化表示,然后将汇总好的词向量转化为句向量。在分类器部分,将句向量依次通过 LSTM 网络,最后在网络模型中加入池化等操作,一般会经过 Softmax 函数输出一个概率,取概率最大的那个类别就是最终的类别。值得注意的是,LSTM是 RNN 的扩展模型,它的内部结构比普通 RNN 更加复杂。如图 2-1 所示,LSTM网络又可以分为链式的 LSTM 和树型结构的 LSTM,大多数学者采用 LSTM 而不是 RNN,因为采用普通的 RNN 网络进行文本分类,会出现梯度消息等问题。并且,使用 LSTM 网络的变体更加能够捕获丰富的语义语法信息。Zhu 等人提出了一种 C-LSTM 网络[35],该网络模型为了获取到词语的 N-gram 表示,使用 CNN来提取相关特征,然后,作为输入,直接反馈到 LSTM 网络中,最终能够提取到句子级别的文本表示,实验结果表明,C-LSTM 的性能优于 CNN 和 LSTM。Tai等人提出了 Tree-LSTM 模型[36],Tree-LSTM 模型是将 LSTM 推广到树形结构的网络模型,进而学习丰富的语义表示,因为在 NLP 任务中,利用自然语言具有将单词组合成短语的属性,Tree-LSTM 比普通链式结构的 LSTM 表现要好。此外,基于普通 RNN 的文本分类模型也得到了一定的发展,Dieng 等人提出了一种 Topic RNN 模型[37],该模型是将主题模型与 RNN 相结合,由于 RNN 擅长捕捉词序列局部的上下文信息,而主题模型又可以捕捉全局的语义信息,在情感分类的实验结果表明,Topic RNN 优于 RNN 模型的基准水平。
......................

第 3 章 基于词共现与图卷积的文本分类算法模型的构建..................17
3.1 GCN 概述..........................17
3.2 基于词共现与图卷积的文本分类算法 .............................19
第 4 章 基于深度学习的新闻文本分类算法........................27
4.1 新闻文本特征概述 ........................27
4.2 基于深度学习的新闻文本分类算法 ...........................27
第 5 章 实验与结果分析................................37
5.1 实验环境搭建 ............................37
5.2 文本分类数据集说明 .........................................37

第 5 章 实验与结果分析

5.1 实验环境搭建
深度学习往往需要较高的硬件支持,考虑到搭建这种学习环境需要高质量的软件与硬件环境,为此配备 GPU 为 NVIDIAGeForceRTX20606G,该款 GPU 详细的参数如表 5-1 所示。
表 5-1 RTX2060 的版本
表 5-1 RTX2060 的版本

.......................

结论


随着互联网技术和人工智能技术的不断发展,网络资源成了人们获取数据的最大资源库。互联网每天呈现的数据呈爆炸式增长,因此亟需一种文本分类方法来解决这些存在的问题。文本分类是自然语言处理领域的基本任务,自从文本分类算法提出以来,相关学者不断进行改进和发展,也不断刷新各种大大小小的文本分类数据集的记录。本文阐述了利用深度学习技术进行文本分类的方法。特别是近年来,词嵌入模型、注意力机制、自注意力机制和 Transformers 等新思想的提出,使得对于文本分类的研究取得了长足的进展。新闻是人们获取最新消息、了解时事信息的最佳手段,以深度学习技术为基础,如何实现高效的新闻文本分类是值得探讨的问题,本文所研究的工作具体内容如下:
(1)本文从文本分类的实际应用价值出发,综述文本分类相关研究的背景与意义。并且,本文论述了文本分类的相关任务,主要包括情感分析、主题分析、新闻分类等 3 个典型的文本分类任务和问题回答、自然语言推理等 2 个自然语言理解任务。特别是针对基于深度学习的文本分类技术进行了详细的阐述,主要包括基于 RNN 的文本分类模型、基于 CNN 的文本分类模型、基于胶囊网络的文本分类模型、混合分类模型、Transformer 和 Pre-trained 语言模型、基于图卷积神经网络的文本分类模型、基于无监督学习的分类方法和基于强化学习的分类方法。
(2)以图卷积神经网络为基础,设计一种基于词共现与图卷积的文本分类模型 WC-GCN,模型首先设计词共现概率矩阵的过滤算法完成文本数据的预处理,然后建立文档-单词文本图,最终将图卷积神经网络与注意力机制相结合完成文本分类算法模型的构建工作,实验结果表明,图卷积神经网络的网络层数是比较敏感的参数,当层数达到某个特定数值时,其准确率会达到最优值,如果再随着图卷积神经网络的网络层数的增加,其分类准确率会下降。另外,模型具有良好的泛化能力,与其他分类算法相比可以达到更好的分类结果,为新闻文本分类领域提供一定的应用价值。
参考文献(略)