本文是一篇物流论文,笔者针对电商平台需求预测影响因素的选取问题,提出了生成用户画像方法来辅助物流需求预测,构建用户标签,将多维度的异构电商数据转换成电商用户标签,通过计算各周的用户标签权重形成多个权重时间序列,将权重时间序列作为需求预测模型的协变量输入,提升需求预测的预测精度。
第1章 绪论
1.1 研究背景
随着互联网技术的高速迭代,电子商务平台的数据规模与商品种类迅速增长,然而用户信息的多样化和丰富性反而会妨碍电商平台正确的预测用户的真实需求,造成了数据利用率的严重低下。在海量的数据信息中,大部分的电商数据具有各不相同的数据类型,并不能直接作为电商需求预测的影响因素去输入到需求预测模型中去,尤其是电商用户评论数据,传统的需求预测只能将用户的评论数据分为正面和负面两种情况,这不足以表达出用户评论内隐含的用户需求信息,也无法帮助商家基于用户评论去了解用户具体对商品的哪些方面有更深层次的实际需求。
而为了实现提高用户留存率、合理的流量分发以及电商自营仓库的库存调控,用户画像逐渐成为各个领域相关平台的基本配置,为企业分层用户、抓住核心用户并提供决策依据,有助于提高企业竞争力。用户画像能够基于不同的场景进行不同的标签建模,将各种不同类别的用户反馈根据对应的标签进行分类,并构建群体画像,提纯和统一量化用户的反馈数据,追寻用户反馈隐含的用户内在信息,给出具有可解释性的用户标签。对于电商平台而言,这种处理方法能够将电商平台所获取的海量维度的交互数据进行有效的降维,将原始数据,如用户个人信息、交易历史和风险等级,通过统计分析的方式转化为事实标签,如用户购买频繁度和使用频繁度,再将事实标签基于平台需求进行建模分析,构建为模型标签,如用户活跃度和用户产品购买偏好,最后将模型标签与组合预测模型进行结合来形成预测标签,如用户复购率和用户近期需求,从而预测用户潜在需求。
1.2 研究目的和意义
1.2.1 研究目的
为了给出精准的电商平台用户需求预测,我们需要将平台储存的用户的个人信息和用户对平台的行为反馈数据量化为需求预测中的因变量,从而反映用户在电商平台的真实潜在需求。然而,如何将用户产生的各种类型的数据转变为各项有意义的指标权重仍然是一项困难的任务,部分原因在于许多现有模型是一个黑盒模型,不具备可解释性。我们将要通过用户画像来标签化用户信息,从而量化用户潜在需求影响因子,构建对应的权重矩阵,将权重矩阵作为深度学习模型的输入来进行需求预测,为电商平台的物流决策提供帮助。
在电商行业中,用户画像通过对用户数据打标签以及对用户进行分类,来帮助电商平台在庞大的数据库中发现用户感兴趣的电商产品。这个问题是具有挑战性的,用户、数据和商品的数量与类别都十分庞大。然而,在如此庞大的行为空间中,我们只能观察到相对较少的数据,因为大多数用户只与一小部分产品产生了少量的行为,而且为更小的部分产品提供了明确的反馈。因此,电商需求预测需要去探索和处理这种极端稀疏性的不同机制,并利用隐性的用户数据去学习其中的用户反馈,比如用户的加入购物车的行为和用户的文本评论,进而从这些隐性反馈中提取相关的影响因素变量,通过用户的交互信息来提升预测的准确性,挖掘用户的隐藏需求,而不是简单的通过往年数据进行数据拟合。
第2章 相关理论基础
2.1 电商用户画像研究概述
2.1.1 用户画像概念
用户画像是由交互设计之父Alan Cooper提出的一种对现实用户的虚拟表示。可以用“Personas”和“User Profile”来指代。其中“Personas”偏向于定性的用户角色,它通过将一个自然人的属性进行抽象描绘来构建目标用户的模型,首先根据对用户进行调研的结果查找和分析用户目标、行为和观点上的差异,将用户区分为不同的类型,然后基于各个类型的不同特征赋予对应的描述。而“User Profile”更偏向于定量的用户标签,是随着大数据与人工智能技术上的进步,利用爬虫等数据获取手段或大型数据库的现有数据建立数据库后,通过数据挖掘的手段将数据库中的大数据转变为具体的、全面的用户标签体系,从而利用繁杂的用户交互数据去捕捉用户的真实需求。
目前用户画像常被用来系统性的描述用户的各种相关属性并将这些属性用于挖掘用户的真实需求。用户画像的生成首先需要将用户自行上传或者数据埋点上报的大量信息手机至系统中,然后对这些信息进行沉淀、加工和抽象等处理以便于后续业务的应用。最后根据处理后的数据形成一个记录用户标签的结构树,并将其用于用户属性描述以及用户信息记录。正由于这种结构化的用户刻画与记录方式,用户画像能极大程度上记录用户信息的特点并从中挖掘需求,目前用户画像已常被用作为描述用户和运营营销的分析工具。
2.2 电商评论的情感分析理论及方法概述
2.2.1 情感分析概念
情感分析[54]是自然语言处理中的一个文本分类下游任务,它可以针对文本数据分析其中蕴含的情感倾向,通过分类的方式将文本中的情感基于不同的观点分为积极的或消极的情感。
目前的电商平台上储存有庞大的用户评论文本数据,但电商平台仅能帮助电商店铺做最基础的评论情感分析,即用户评论的评分与好评率,然而这类情感分析并不能有效地帮助商家对用户需求进行分析,并基于用户的内在需求制定相对应的营销活动。问题在于评论中的实体,即用户评论所针对的具体商品以及商品相对应的具体商品特性维度。
为了解决电子商务中的上述问题,情感分析提出了两种方法。一种是基于机器学习的情感分析,如通过支持向量机(SVM)、贝叶斯网络(Bayesian Network)[55]等方法,将评论文本构建为one-hot向量的形式之后,对文本进行分类任务的训练,具体的模型效果取决于训练文本的情感维度以及对评论文本训练集的正确标注。另一种是基于情感词典的情感分析,通过收集大量的文本数据,将文本数据向量化并标注情感极性后通过比对输入数据与其他文本数据的相似度来确定输入数据的情感极性,这种方法有TF-IDF模型和CRF条件随机场模型来支撑,当作为情感词典的文本数据具有一定的量级之后,就能有很好的情感分析效果。
第3章 基于RoB ERTa情感分析的用户画像构建 ............................ 27
3.1 用户画像构建框架 .................................. 27
3.1.1 电商用户数据分析 .................................... 28
3.1.2 电商用户标签体系 ..................................... 28
第4章 基于深度学习的组合预测模型 ................................. 49
4.1 基于深度学习的组合预测模型框架 .............................. 49
4.2 自适应权重组合策略 ................................................. 51
4.3 组合需求预测子模型 .......................................... 56
第5章 基于多评价指标的超参优化算法与需求预测 .................................... 71
5.1 超参优化算法 ......................................... 71
5.2 TPE算法模型架构 .................................... 72
第5章 基于多评价指标的超参优化算法与需求预测
5.1 超参优化算法
在机器学习中,超参数定义模型结构,控制学习过程,如隐藏层数、激活函数类型和学习率。大部分深度神经网络,如LSTM,其学习性能在很大程度上依赖于大量的超参数选择。而超参优化算法[75]在机器学习模型的发展中起到了重要的作用,该算法可以减少部署机器学习的超参数配置的人力,也提高了机器学习模型的性能,能够对不同的目标选择最合适的超参数值。
在本文中,我们改进了贝叶斯优化的一种变体,TPE算法[76]。TPE算法能够有效地为基于深度学习的需求预测模型自动优化超参数。
相比较其他经典的优化方法,如粒子群算法、蚁群算法和网格搜索算法,贝叶斯优化能够通过最少的迭代数找到全局最优解,并且不需要用户对超参数分布有基本的了解,它的核心思想是后验概率。
贝叶斯优化的过程是:首先建立目标的概率模型,每一次超参数的选择都是在评估之前的试验结果的基础上进行的,然后在下一次试验中更新概率模型,直到选择出最有希望的超参数集,并基于目标函数进行评价。与网格搜索和随机搜索相比,贝叶斯优化具有更高的计算效率,需要更少的尝试来寻找最佳超参数集,并且适用于任何形式的目标函数。
第6章 总结与展望
6.1 研究结论
物流需求预测是通过挖掘物流活动产生的数据中的物流需求影响因素,通过结合分析各影响因素与物流需求量之间的内在联系,借助物流相关的理论支撑与定性定量的模型对未来一段时间内的物流实际需求与趋势实施预测的过程。本论文立足于电子商务平台的店铺单一品类物流需求进行需求预测研究,预测结果具有较高的精度与稳定性。本文的主要研究结论如下:
(1)对于确定电商需求预测协变量的问题,提出通过用户画像生成的方法来获取电商需求预测影响因素的数据。在分析电商用户数据的特点后,通过建立用户画像标签体系,通过将不同类型的用户数据统计分析为对应的用户标签,将蕴含了异构信息的用户数据归纳统一,并将用户标签作为需求预测的影响因素,利用每周对应的用户标签权重组成时间序列,将该时间序列作为电商需求预测中的影响因素,从而提高的电商需求预测的精度和稳定性。
(2)为了寻找与电商店铺单一品类商品物流需求相关的影响因素,本文采取了情感分析、RBF模型和漏斗模型等方法去分析不同类型的用户数据后,构建了相对应的用户标签体系,其中针对用户评论文本采用的基于预训练模型RoB ERTa的情感分析方法能够有效的将评论文本数据转化为用户针对商品的价格、物流和质量三个层面的评论极性数据,且相较于基于BERT的情感分析方法有一定的F1值的提升。
(3)基于真实的电商用户数据,本文提出了一种多评价指标TPE优化的自适应权重组合预测模型。为了让组合预测模型取得更好的预测效果,本文首先基于评价指标SMEI对比选取了四种预测效果更好的组合预测子模型:TPA-LSTM、MQRNN、Deep AR和LSTM,并提出了一种自适应权重组合策略来进行子模型的组合。最后通过一种多指标TPE优化的超参优化算法对基于深度学习的组合预测模型进行优化,提升了超参数优化的效果并获得了精度更高的预测结果。
参考文献(略)