本文是一篇电子商务论文,本文实现的评论自动回复技术无需标注大量数据,通过爬虫获得的数据就能实现本文的在线评论自动回复系统,对于商家来说具有实际使用价值和意义。
1绪论
1.1研究背景
随着社会的迅速发展,越来越多的人享受到科技带来的便捷。中国互联网络信息(CNNIC)在2019年8月30日发布了第44次《中国互联网络发展状况统计报告》,报告指出互联网普及率达到61.2%。截至2019年6月,我国网络购物的用户规模达到6.39亿,占所有网民用户的74.8%[1]。随着互联网的普及和电子商务的大力推广,越来越多的消费者选择网上购物,也吸引到更多的商家开始在线上销售商品。在网络购物交易过程中,消费者和商家存在信息不对称且交易过程并非同步进行,相比于线下购物,这种网络购物过程会让消费者感受到较高的风险,例如商品质量,配送安全等。因此消费者往往会通过各种方式来搜集关于商家和商品的更多详细信息。其中,商品的在线评论与商家的回复就是了解更多信息的一个重要渠道,这些内容往往比商家做的广告和推广的真实性和有效性更高。
在线评论分为正面评论和负面评论,通常称为好评和差评。负面评论可以使消费者了解到自己购买商品时可能会遇到的问题和不足,这会对商家带来不利的影响,此时商家需要对评论给予回复,避免其负面的舆论带来店面的形象声誉造成损害。实际上,对于大量评论,商家往往只挑选差评来进行回复或干脆不回复。如果商家不回应这些负面评论,就会带来消费者的顾虑。相反的,如果商家及时回复差评,做出合理的解释和应对,就有可能消除消费者的一些顾虑并且提升购买意愿和信心。但是面对大量评论,一些商家即使希望回复评论也可能没有足够的精力和时间。良好的用户体验一直是商家努力的方向,可以提升用户群体的粘性,通过网络互动产生的体验对用户满意度、用户忠诚度和行为意向都有显著的影响。随着人工智能的发展,很多智能问答系统取代了以往的人工客服,大大减少了人力资源。基于此,本文选取京东图书为例,利用爬虫获取在线评论,商家回复和评价星级相关数据,通过对在线评论进行聚类分析,然后对在线评论进行多维度的情感分析,最后结合深度语义匹配来自动生成回复内容。
1.2研究意义
本文研究采用深度学习的方式进行文本匹配,通过对消费者的在线评论进行基于语义的文本匹配后进行回复内容生成。不仅具有一定理论价值,在实践上也有应用场景,对商家有一定的指导意义。
1.2.1理论意义
首先丰富了对在线评论回复的研究。目前大部分的研究主要集中在在线评论上,对商家的回复研究较少。并且文本生成任务的研究主要集中在自动翻译,问答系统等,对在线评论回复的文本生成研究较少。
其次,本文提出采用Canopy+Kmeans对在线评论进行聚类分析,在此基础上利用基于先验知识的主题模型CorEx对聚类得到的主题特征词进行扩充,具有一定的创新性。本文利用BERT模型进行初始化向量,作为双向长短期记忆网络BiLSTM的输入进神经网络模型进行训练,构造了基于BERT+BiLSTM的情感分析模型,结果表明该模型具有良好的分类性能。
最后,在文本匹配上,本文采取了句向量余弦相似度和多维度情感分析相结合的方式,结合聚类分析得到的主题特征词进行多属性维度的情感倾向分析后,更能对这些评论中包含的主题信息进行针对性的回复。同时,利用文本增强技术EDA结合句向量余弦相似度可以生成更多样的回复内容。
2相关理论基础
2.1在线评论商家回复研究
与传统线下零售领域不同,网络负面口碑的快速传播扩大了商家服务失误的影响范围[2]。为了解决负面的在线评论对店铺的影响,商家常常会通过进行回复来进行道歉和解释来补救负面评论的影响。目前关于在线评论商家回复的研究也大多是针对负面评论的研究,商家的回复是经营者管理口碑与信誉的重要工作,很大程度上影响了消费者对商店的认知。
Bitner等人[3]的研究结果表明,企业对消费者的抱怨置之不理和不予回应是最令消费者不满意的体验之一。Sparks等人[4]发现对于消费者来说,一种潜在的信息线索就是用户发布的在线评论和管理者发布的回复内容。Dacidow等人[5]指出,缺乏消费体验的顾客会以用户评论和商家回复内容为根据,判断酒店对消费者需求的关心程度和响应程度。可以看出,商家回复是消费者获取信息和商家保证的重要信息,对在线评论不予回复不利于商家的口碑和形象。
李爱国等人[6]利用实证研究方法分析了商家回复对负面在线评论的内容评分与产品销量的调节作用,研究表明商家回复的及时程度和商家回复的内容质量对体验型产品销量存在显著调节作用。李宏[7]通过实证分析得出,负面在线评论的补救措施对潜在消费者对待产品的态度和购买可能性有着显著的积极影响。张茜[8]的研究表明,在线上商家的回复补救中,真诚的道歉,针对问题的合理解释和服务补救承诺均能显著的降低潜在消费者感知风险,并且显著的促进潜在消费者的首购意愿。由此可以看出,对在线评论进行回复可以有效的提升商家的服务形象和消费者的交互体验。
和消费者的交互体验。综上所述,商家回复很大程度上影响着消费者对商家态度和商家形象的认知,从而影响着潜在消费者的购买意愿。为了提高商家口碑和消费者购买意愿,对在线评论特别是负面评论进行及时且有质量的回复是必要的。
2.2在线评论
文本聚类研究文本聚类是一种无监督的学习方法,它的算法模型能够让文本数据自动形成标签,属于同一标签类别的文本数据会被聚合到一类。这种方法可以很灵活的自动处理文本,为之后的文本分析和工作奠定基础,本文的在线评论聚类属于短文本聚类分析。
主流的聚类算法有基于LDA的文本聚类方法,采用词袋模型,将每一篇文档视为一个词频向量,利用三层贝叶斯概率模型来识别大规模语料库中潜藏的主题信息[9];另外一种主流的聚类算法是Kmeans算法,即K均值聚类算法,根据距离函数迭代计算将数据分入K个类别中。马存[10]提出一种利用word2vec训练词向量模型,以松弛词语移动距离(RWMD)为聚类的依据,利用LDA确定K值的Kmeas聚类模型,相对于传统的聚类算法有明显进度。饶毓和[11]提出了一种结合词对主题模型(Biterm Topic Model,BTM)与段落向量(ParagraphVector,PV)的短文本聚类方法,对短文本具有较强的区分能力,有效避免短文本的稀疏性影响。R.Janani[12]提出一种粒子群优化(SCPSO)的谱聚类算法来改进文档聚类。张琳等人[13]针对Kmeans算法需要事先指定簇的个数提出采用Canopy先对数据进行粗略聚类,然后利用Kmeans细分聚类,实验结果取得了较好的效果。Song W[14]提出一种结合语义空间模型SSM和模糊控制遗传算法GA进行文档聚类,相比于常规GA有更好的表现。Gallagher R J等人[15]提出主题生成模型的替代方法CorEx,通过一种信息理论框架学习信息量最大的主题。
3基于文本聚类的主题词提取....................................12
3.1基于Canopy+Kmeans的文本聚类..........................................12
3.1.1 Canopy聚类算法简介.....................................12
3.1.2 Kmeans聚类算法简介..........................................13
4基于BERT+BiLSTM的情感分析模型....................................19
4.1 BERT和BiLSTM模型简介.......................................19
4.1.1 BERT模型简介....................................19
4.1.2 BiLSTM模型简介......................................21
5在线评论自动回复模型........................31
5.1在线评论匹配机制.........................................31
5.1.1在线评论的多维度情感分析...................................31
5.1.2深度语义匹配机制......................................33
5在线评论自动回复模型
5.1在线评论匹配机制
5.1.1在线评论的多维度情感分析
为了得到一条在线评论的各属性的情感倾向,需要构建评论分句的方法。在线评论的长短不一,而本文需要对5个属性维度分开进行分析,一条评论可能包含n(n=0,1,...,5)个属性。Bhargava R等人[67]提出为了减少模型的处理,提取文本中重要的信息是有用的,使用文本摘要分析特定主题的情感。基于此本文将在线评论分为短句后,再根据属性特征词筛选各维度的短句分别进行情感分析。
分句的简单标准是根据标点符号进行分割。采用标点作为分句标准,分割后的短句可能不包含属性特征词,也可能包含1个或多个属性特征词。由于不包含评论属性特征的短句对多维度情感分析没有实际价值,因此需要将这些不包含属性评论特征的短句剔除掉。过滤掉这些短句后剩余短句都是包含主题特征词的短句,需要利用这些短句进行多维度情感分析。
包含1个属性特征的短句即可作为该属性短句进行情感分析,而评论短句中也存在包含多个属性特征的短句,对于这些短句如果直接进行情感分析,只能得到一个总的情感倾向无法对其属性分别分析。因此,本文使用依存句法分析帮助进行短句分割,目的是将短句分割至只包含一个属性特征词的短句。依存句法(Dependency Parsing)是通过分析句子中各单位成分之间的依存关系,以此揭示句子的句法结构。根据Zhou M等人[68]的研究表明,依存句法分析比短语结构语法更适合表示汉语结构。本文采用哈工大社会计算与信息检索研究中心研发的语言技术平台(LTP)[69]对短句进行依存句法分析,依存句法具体分析得到的关系类型如表5.1所示。
6总结与展望
6.1总结
本文的核心内容是面对电商平台的评论自动回复技术的研究与实现。随着电子商务的发展,越来越多消费者选择网上购物,在商铺选择上在线评论和商家回复对购买有一定的影响,对在线评论自动进行回复对于商家来说有一定价值。
本文主要采取的方法包含了无监督学习(BERT语言预训练模型,Canopy聚类,Kmeans聚类),半监督学习(基于领域知识的主题模型)和有监督学习(BERT+BiLSTM情感分析模型),有监督学习往往需要大量人工标注数据,本文采用评论星级判断情感倾向的方式获得标签数据进行有监督学习,而半监督学习的数据来源是无监督生成的特征词。所以本文实现的评论自动回复技术无需标注大量数据,通过爬虫获得的数据就能实现本文的在线评论自动回复系统,对于商家来说具有实际使用价值和意义。
文本的评论自动回复实现主要研究了文本主题特征词提取、文本情感分类模型和评论内容匹配与回复生成三个关键问题。具体研究工作的主要贡献体现在以下几个方面:
(1)在文本聚类分析中,为常用算法Kmeans搭配使用Canopy聚类算法,先使用Canopy聚类算法对文本进行聚类分析得到簇的个数k,再使用该值作为Kmeans的k值进行Kmeans聚类分析,得到在线评论的主题属性特征词,实验结果分析以该方式获得的k值是合理的。在此基础上,利用基于领域知识的主题模型CorEx对属性特征词进行扩充,该模型可以设定每个主题类别的锚定词和锚定强度,在已有主题类别和主题特征词的情况下可以聚类找到更多该主题不容易被发现的特征词。
(2)针对多维度情感分析,本文提出BERT+BiLSTM情感分析模型,利用BERT模型对输入文本进行向量初始化操作,紧接着将该向量作为双向长短期记忆网络BiLSTM模型的输入,对BiLSTM模型进行分类训练得到最终的情感分析模型。设计对比实验后,结果表明该方法在在线评论的情感分析上可以取得较好的性能。
参考文献(略)