本文是一篇计算机论文,本文基于同样的理论和技术原理,结合MBTI人格类型的相关知识对聊天机器人回复生成模型,以及生成回复内容后的再次分析等一些重要问题进行了分析和研究,以此为基础设计出了一个聊天机器人模型,即人格特征与Seq2Seq模型相融合得到的具有人格特征的生成式聊天机器人模型。
第一章绪论
第一节研究工作的背景
近年来,随着大数据时代[1]的到来以及软硬件相关技术的发展进步,神经网络,深度学习技术的迅速发展以及由此发展引导的自然语言处理技术的进步,拥有着巨大的研究内容和应用价值的聊天机器人,迅速成为了工业界应用和学术界研究的热点之一。聊天机器人以一种类似于人与人之间对话的方式与用户进行交流,在交流过程中,除了与用户进行良好地互动还能够提供用户需求的信息,由此可以预见未来搜索引擎必会以某种方式被聊天机器人所取代。聊天机器人最早出现在上世纪70年代,约瑟夫·维森鲍姆(Joseph Weizenbaum)先生主导研发的ELIZA聊天机器人[2]。随后陆续涌现出ALICE[6]、CSIEC[4]、Sofia[5]、UC[3]等多种多用途的聊天机器人,这在当时引领了整个时代的聊天机器人研究和技术发展方向。时间来到21世纪,尤其最近几年,如华为公司的聊天机器人小艺,百度公司的聊天机器人小度,苹果公司的手机助手Siri等都是一些非常具有代表性的取得成功的聊天机器人产品。各种聊天机器人的成功研发应用落地也进一步为相关研究和技术的发展提供了强大的示范效应。
从聊天机器人使用技术上来划分,可以划分为基于生成式模型的聊天机器人以及基于检索的聊天机器人。前一种是在神经网络,深度学习以及自然语言处理等技术发展起来后才具有可用性的,生成式对话系统是在模型训练完成后,不再使用语料库,使用纯模型参数的方式进行回复内容的生成[7];检索式聊天机器人一般指基于专用的对话语料数据库,根据上下文对话从语料数据库中搜索出合适的语句作为回复的聊天机器人。
第二节研究工作的意义
本章第一节阐述了为聊天机器人设定人格特征背景研究的重要性,本小节主要阐述本文的研究工作的意义。语言反映了个体的思维方式、性格特征、情绪状态和社会关系这一理论在心理学领域被广大学者所接受。通过找出隐藏在文本背后的人们使用某些特定词汇的频率这一特征,研究者发现根据这一特征可以预测文本写作者的性格[8][9][10]。他们根据这一规律发现,一类性格的被研究者使用的词汇往往具有较强的相似性[13],从而说明性格特征与某些特定的词汇具有很强的相关性,所以研究学者们给出的建议是,在性格评估任务中应该考虑使用语言、文字这一类数据。H.Andrew Schwartz[11]通过对7万多名Facebook用户的1500多万条推文数据进行建模分析,发现不同年龄、性别和性格的用户在社交网站上使用的表达都有其倾向性,使用的词汇不同。迈尔斯-布里格斯类型指标(MBTI)因具备经典理论基础、测量人格类型而非人格特质和可用于专业评估同时易于向大众解释其测试结果[12]这三大优势,从诸多人格评测工具中脱颖而出。目前,对于个人人格的分析与预测,比较成熟的方式是通过问卷调查的方式来进行。本文根据以上相关研究尝试通过人们语言形成的文本信息,改变传统的问卷调查方式,基于MBTI数据集的机器学习分类算法来预测个人人格。同时,当前针对聊天机器人生成模型的研究主要以模型架构为主,基于对话数据集。很少去研究对话数据集中文本内容的相关背景信息,以及聊天机器人和聊天主体的对话是否符合聊天主体的预期。
由人类脑神经研究衍生出人工神经网络,进而形成深度学习相关技术的跨越式发展。通过对聊天机器人嵌入人格特征背景的研究来追求聊天机器人回复生成的更加人性化,性格化,以及满意度来促进聊天机器人的大发展。虽然设想十分美好,个人能力和软硬件水平都不足,现有技术尚不能实现。只是作为一个设想,这也是本文相关研究的意义。
第二章相关理论知识与技术研究
第一节MBTI介绍
1942年,美国心理学家Isabel Myers和Katherine Briggs根据荣格的心理类型研究的相关理论提出,可以通过四个维度八个方面来描述人类的心理活动和个体行为差异,即个体内部能量的流动方向:外倾(E)偏向与内倾(I)偏向;个体获取信息的主要感知方式:感觉(S)偏向与直觉(N)偏向;个体依据获取的信息处理事务的主要决策方式:思考(T)偏向与情感(F)偏向;个体与周围其它个体的主要接触方式:判断(J)偏向与知觉(P)偏向。上述四个维度的八个方面,可以组合成16种人格类型。感知和判断作为人脑的两大基础功能,个体从外部获取信息主要使用人脑的感知方式,个体以特定的方式做出决定主要使用人脑的判断方式,两者在人类大脑内部活动中的作用受到来自个体的精力来源和生活方式的制约,从而对人类的态度和行为产生截然不同的作用和影响,所以人格特征才会被认为是一种与生俱来的人类本性,于是MBTI分析出的人格类型具有结构性、整体性和稳定性等特点,是每个人类个体所特有的,能够提供个体的对外态度和具体行为的相对合理的解释。在这一理论指导下,心理学家们研究开发并研制出一种用于自我报告的人格评估工具表MBTII(Myers-Briggs Type Indicator)人格类型量表[39],用以量度和描写人们在对待生活的态度、获取某些信息和作出相关决策的心理活动表现。MBTI因其丰富的理论基础、严谨的操作程序和极强的有用性被普遍应用于团队建设、教育学习以及个体与家庭的辅助治疗等相关领域[40]。
正如两千年前,哲学家赫拉克利特道:“性格决定命运(Personality determines the fate)”。如今,性格已成为考量个体思维表现和行为特征的重要方面。
第二节机器学习分类算法
所谓分类,以容易理解的方式来说,就是根据文本的特征或属性,使用分类算法把该文本划分到已存在的某类文本类别中。本文中使用的分类算法,主要是在有标签的数据集上训练,训练得到的分类算法可以用来预测没有标签的文本数据。本小节将介绍在实验中所使用到的几个分类算法。
一、Logistic Regression分类方法
Logistic Regression是一种广义的线性回归分类算法模型,前提是假设因变量的分布服从伯努利分布,属于机器学习算法中的监督学习分类算法。开始主要用来解决数据的二分类问题,后面通过改进Logistic Regression输出层使用的函数然使该分类算法也能够用来解决数据的多分类问题,使用给定的训练集数据来训练Logistic Regression分类算法模型,在训练结束后对给定的测试集数据进行分类测试。
二、SVM支持向量机
支持向量机(Support Vector Machine,SVM)是由Alexey Ya.Chervonenkis和Vladimir N.Vapnik在1963年前后提出的分类算法理论[41]。在2012年深度学习这个理论方法还未提出之前,SVM曾一度被认为是最好的模型分类算法,所以在深度学习这个理论方法提出之前SVM被广大研究学者广泛应用在各种分类场景中。SVM模型分类原理是在特征空间中寻找一个具有最大间隔的超平面将训练数据分成两部分,距离最大间隔超平面最近的实例被称为支持向量。因为此特性,SVM模型开始只适用于中小型数据集,当引入核函数后SVM模型才开始适用于大型数据集。理解支持向量机的三个阶段是这样的:当数据线性可分时,一个线性分类器通过最大化硬间隔计算出来,也就是线性可分支持向量机;当数据近似线性不可分时,即主要通过最大限度软间隔计算出一个线性的分类器,分类过程中允许错误的分类实例出现,也就是线性可分支持向量机;数据完全不可分时,通过使用核技巧将低维数据映射到高维特征空间后计算出一个非线性支持向量机。
第三章基于机器学习的人格特征分类与预测····················40
第一节引言······································40
第二节任务描述与问题分析·····································40
第三节模型实验·············································42
第四章面向不同人格特征的生成式聊天机器人的模型研究和设计······················51
第一节引言········································51
第二节任务描述与问题分析·························51
第三节模型实验·····································52
第五章总结和展望未来·····························62
第一节全文总结·············································62
第二节展望未来···········································63
第四章面向不同人格特征的生成式聊天机器人的模型研究和设计
第二节任务描述与问题分析
Seq2Seq模型的神经单元使用RNN,LSTM,GRU,以及促进模型训练的Dropout,Attention,Beam Search等方法,不同结构有其自身的优势,使用不同结构来构成模型,模型训练对输入的文本信息进行编码时主动通过该文本信息分析聊天主体的人格特征背景,选择匹配的人格特征向量,在模型解码时嵌入该人格特征向量,分析模型生成的回复内容,同样进行回复内容的人格特征预测,判断模型是否模拟出了人格背景特征。
流程如图4.1所示:
需要注意的问题:
(1)聊天主体所说的话尽量使用MBTI数据集的词语来表达。(2)和聊天主体人格匹配的人格特征向量如何有效嵌入到模型训练中。(3)生成的回复的人格预测,判断模型是否模拟出了人格背景特征。
第五章总结和展望未来
第一节全文总结
生成式聊天机器人的不足之处是其回复内容可能会有语言质量不高、不通顺甚至语法错误等问题,但是优点也很明显,可以回复各种各样的问题。本篇文章就是在综合优点和缺点这样的应用背景之下展开研究,提出了融合人格特征和生成式聊天机器人模型的技术,设计了一种面向人格特征的生成式聊天机器人模型,该模型使用自然语言与用户进行对话。本文的主要贡献如下:
(1)阅读大量聊天机器人方向的相关文献,MBTI人格类型最新研究论文。
(2)选择MBTI数据集和机器学习分类算法,通过分类算法对数据集分类准确率的综合分析,确定算法的综合使用。综合使用分类算法通过文本信息进行聊天主体的人格预测。整合数据集中数据,把相同人格特征的数据整合成一个大文本,使用Word2Vec算法来生成一个对应的向量来代表该人格。为后续模型训练做输入数据。
(3)首先选择训练使用的中文对话语料库青云数据集,其次提出了改进的根据聊天主体的人格特征预测选择匹配的人格特征向量嵌入生成式聊天机器人的RNN+Attention的Seq2Seq模型,双向LSTM+Attention的Seq2Seq模型,双向GRU+Attention的Seq2Seq模型。其中人格特征向量的嵌入方式是和解码单元第一层神经单元的输出进行直接向量Add操作,输出结果送入后续的解码神经单元层。测试时一种使用训练用的青云语料库比较三种模型的回复生成结果,发现生成的内容仍以语料库中的内容为主,变化相对较少;
参考文献(略)