本文是一篇计算机论文,本文通过深度学习技术对神经网络模型进行优化,设计出适用于电商平台的关键词提取算法,在该场景下,其抗干扰能力强,提取结果精确度高,且降低了重复提取语义相近关键词的频率。
第一章绪论
1.1研究背景和意义
随着现代互联网络的高速发展,线上购物模式愈发完善成熟。中国互联网信息中心于一九九七年十一月出版了首份《中国互联网统计报告》,并建立了每年一期的定期公布报告的制度。而在京发布第50次《报告》中提到,截至2022年6月,中国的网民数量已经达到了10.51亿,网络渗透率已经达到了74.4%,而在这当中,通过移动电话访问互联网的用户占比已达99.6%,有33.3%的人在用台式机,32.6%的人在用笔记本,26.7%的人使用电视,27.6%的人在用平板电脑上网[1]。通过以上数据可以发现我国的移动互联网发展十分迅猛,相较于上一年的规模增长了1785万,与此同时,互联网支付的用户数量已经达到了9.04亿,在整个互联网中所占比例为86.0%[1]。移动互联网正处于高速发展的阶段,它的繁荣发展给人们提供了更多的生活方式,其中就包括网络购物。
人们线下购物的方式逐渐被网络购物所替代,而移动互联网的壮大和手机配置的快速发展,让网络购物的方式更加便捷,逐渐成为人们生活的一部分。用户在通过移动互联网或者PC端在购物平台进行消费,部分用户购物后,在使用一段时间会进行相应的评价。真实且合适的评论可以利好商家和用户,效果好的话能达到良性循环。由于网络购物的日常化,致使评论的质量良莠不齐,数量呈指数级增长,以至于商家和用户很难从海量的评论中提炼出有用处和意义的信息。对于用户来说,评论内容冗杂,导致浏览评论费时费力,并且很难再凸显出产品的相关特性。对于商家来说,巨大的数据量导致处理起来很艰难,用户评论的相关内容倾向不够明确,商家很难对后续产品的有指导性改进。
1.2国内外研究现状
1.2.1电商平台评论研究现状
在过去的几十年里,数字技术在商业活动中的引入导致了商业领域的许多变革。作为最典型的代表之一,电子商务改变了卖家和买家之间的交易模式,并为这些买家和卖家提供了几项主要优惠。一方面,电子商务为卖家提供了增加收入流、降低成本、轻松进入新市场、增加客户黏性和简化供应链的机会。另一方面,电子商务为买家提供了新颖、方便的购物体验、创新产品和服务以及娱乐。然而,这些令人兴奋的优惠并不是可持续或甚至随着时间推移而下滑。这将不可避免地使希望继续进行电子商务活动的买家和卖家感到不安。在全球范围内电子商务客户数量增长率和每位客户电子商务销售额增长率从2019年到2022年呈下降趋势,在2021年分别降至7.56%和3.70%。这些数字大约是2019年记录增长率的一半。上述现象的原因是,在电子商务系统中,与产品相关的数据(在必要的上下文中)并未在正确的时间和地点为正确的人提供。具体来说,随着电子商务平台上大量产品简介的发布,买家发现自己想要的物品变得既耗时又有时不可能。这迫使买家终止他们当前或未来的购物行为。电子商务平台旨在发布、搜索和选择产品,而企业信息系统旨在通过大量人力处理与产品相关的信息。电子商务平台和企业信息系统都缺乏及时感知内部和外部环境(例如企业健康状况和客户需求)的能力。它们也缺乏自主、自动地处理业务的能力。这些无能最终导致了对客户需求感知失败。所有参与电子商务活动的参与者(例如供应商、制造商、零售商、电子商务企业和物流提供者)本质上都是异构的。这种异构性通常会导致本地通信效率低下。通信失败后面紧跟着其他失败,最终导致在线订单履行效率低下。因此,在传统电子商务系统中进行数字化业务方法不再产生预期优势。电子商务系统现在必须对内部和外部变化敏感。这些系统还必须能够以积极提供实时信息、产品或服务,并能够预测未来趋势作出响应。这将涉及到电子商务系统采用智能方法(例如智能推荐)。
第二章相关技术与理论简述
2.1自然语言处理
自然语言处理(NLP)是一门研究人类和计算机之间语言交流问题的学科。在人工智能诞生以前,计算机是用来进行计算结构性资料的,然而,互联网上的大多数资料,例如:文章,照片,声音等,都没有任何的结构性。而要对其进行有效的解析和使用,就必须借助计算机对其进行理解和使用。自然语言处理包含了两大核心任务,分别是:自然语言理解和自然语言生成。自然语言理解的目的是让机器能够像人一样拥有语言理解能力,而后者的工作是超越人与机器的差距,把非言语的资料翻译成能被人所懂的东西[21]。
英文语言的预处理包括六个阶段,分别是:分词、词干抽取、词形还原、词性标注、命名实体识别、分块。中文数据的预处理包括中文语料的切分、词性的标注,命名实体识别以及把停用词进行移除四个阶段[22]。随着对自然语言处理技术的深入了解,以及对其应用的逐步扩展,关键词作为表达文本内容主要意义的最小单位在自然语言处理任务中起到了至关重要的作用[26]。
2.2语料预处理
2.2.1中文分词技术
在自然语言处理(NLP)中,分词是一个非常关键的环节,它指的是将相应的句子、段落、文章等长文本,处理为以字词为单元的一个数据结构,以便在以后进行一些分析和处理工作[23]。分词的目的是为了把复杂问题简略化,将复杂的情况转化为数学问题,机器学习之所以会让人们感受到其强大,是因为它把所有的繁琐难以理解的问题,一点一点拆分为简单的问题,这是一个数学化的过程。与此相似的是,在使用了NLP之前,文字本身就是一种非数据化的数据,要把这种数据转换成一个结构化的数据,这样就可以把这种数据转换成一个数学问题,而分词就是这个转换的首要步骤。
因为字的粒度太小,容易产生歧义,无法表达完全的内容,并且句子的粒度太大,包含的信息过多,复用性较差,单词是一个尺寸相对适当的颗粒大小[24],可以成为一个最小的单元来表示一个较为完整的意思。在步入了深度学习的阶段后,切分词语不再是NLP的基本要素[25],但是对于一些特定的任务,比如关键词提取或者是命名实体识别等还是很重要的一个环节。
英文因为自身的特点,会用空白来作区分,而中文则不会。在中文的划分上,这是一个很大的问题。而且,因为中文悠久的文化背景,导致了一词多义的现象,以至于很容易出现歧义。英文词汇中有大量的变化现象,英语在处理这种变化时,与中文在某些方面是有区别的,一个是词形还原(Lemmatization),一个是词干提取(Stemming)。同样中文是需要考虑词句的粒度的情况,粒度愈大,表达的含义就会愈确切,但是由此导致的召回率也比较低,因此在中文语境的情况下,需要考虑到不同场景进行适度匹配。第三章 基于关键词提取的评论分析框架构建 ................................... 13
3.1 问题描述 ...................................... 13
3.2 数据获取和预处理 .................................. 13
3.3 框架实现 ............................ 17
第四章 系统实现与测试 ....................... 29
4.1 开发环境 ................................. 29
4.2 需求分析 ................................ 30
4.3 总体设计 .................................... 35
第五章 总结与展望 .................................. 41
5.1 总结 .................................. 41
5.2 展望 ................................... 41
第四章系统实现与测试
4.1开发环境
4.1.1硬件配置
系统所运行的环境要考虑到日后的可扩展性和高效性,因此部署在一台具有较高算力的计算机上,具体硬件要求如表4.1:
4.1.2软件环境
开发软件需要计算机内GPU的CUDA加速器,利用GPU的强大计算能力来加速运算效率[52],还需要Python以及其第三方库。系统所运行的系统为Win10,因为相较于Win11其稳定性更强,兼容性更高,具体的软件环境如表4.2:
第五章总结与展望
5.1总结
本文基于改进的长短期记忆网络模型对电商评论进行关键词提取分析,同时对最终生成的结果通过图表的方式进行可视化呈现,且包括原始的文本结果,为用户和商家提供了便利的分析途径,具有一定的价值。
本文通过深度学习技术对神经网络模型进行优化,设计出适用于电商平台的关键词提取算法,在该场景下,其抗干扰能力强,提取结果精确度高,且降低了重复提取语义相近关键词的频率。根据本文的改进算法,设计并实现了基于关键词提取的评论分析系统,本文具体成果如下:
(1)数据集的获取。使用京东的API对实际的评价进行了爬取,并建立了一个测试样本库。
(2)数据集的预处理。针对电商评论的数据分析所得,去除电商平台自动评论的相关数据;将仅含标点符号的评论删除;将纯数字或者纯字母的评论删除;将评论中诸如“京东”、“商城”等出现频率较高的且无意义的词去除。
(3)创新了一种关键词提取算法,针对在电商评论中,存在着许多的非真义的词汇,以及语句的不连贯等问题,而对其进行了改进。该方法首先从隐藏的状态中提取N个属性项和意见项,用于减少数据的冗余并引导下一阶段的神经网络,在此基础上,采用双向LSTM方法,生成具有初始隐含状态的属性词和观点词,并且明确当前属性词和前NA个属性词之间的关系,以给出的候选属性词为基础,对所得到的观点词进行了演算,对候选属性词与目前的意见词的相关性进行了分析,最终将备选属性词和备选观点词传递到了全连接层,并预测生成关键词。
参考文献(略)