本文是一篇电子商务论文,本实验基于每一用户的历史回答内容,建立LDA主题模型,得到用户的话题兴趣分布,然后根据已建立的LDA主题模型对某一问题进行话题分析。最后通过问题和用户的话题分布情况,得到用户对该问题的兴趣度因子。
第一章 引言
第一节 研究背景
随着互联网的飞速发展,门户网站、购物网站、社交网络平台等各种网络形式也随之涌现。其中,自社交网络出现后,社交网络就在非常短的时间内融入了人们的日常生活,人们发现了一种更加新颖、快速并多样化的方法去展示自己生活中的点点滴滴。在国内,以“微博”为首的中文社交网络平台中在2019年第三季度平均每月有高达4.97亿的活跃用户在平台中进行内容分享;Facebook是美国的一个社交网络平台,自2004年创立以来飞速成长,并在2019年第四季度月活跃用户达到25亿,比去年增长8%。当然,社交网络除了成为大家不断展现自我的平台之外,还逐渐衍生出更加专业化的平台,例如可以分享书籍、电影等观后感的豆瓣网;可以分享并和技术大牛讨论关于IT技术内容的CSDN;可以进行地理位置分享和签到的Foursquare等等。其中,以“知乎”和“百度知道”为首的国内热度最高的“知识型”问答社区,就是一个能够让有问题的用户提出问题并能够得到相对可信赖的回答的社交平台。在平台中的用户可以通过关键词等方式,搜索自己想要获得的知识,也可以在搜索不到相关内容时,在平台中进行提问;用户可以以解答问题和评论的方式进行经验的分享,也可以通过撰写博客等方式传播知识。
截至2019年,知乎平台上的注册用户已超过1亿,日活跃用户达到2600万,月平均浏览量达到180亿。即便知乎于2010年创立,但已逐渐被大家所接受和喜爱,成为主要的知识搜索方式之一。以知乎为例,当用户需要寻找想要获取的知识时,可以直接在知乎平台中搜索相关知识;如果得不到满意答复后,可以进行提问,并对问题进行分类;随后,平台会针对用户的提问,向用户推荐“专家用户”以尽快得到解答;当得到答复后,提问用户或者问题浏览者可对答复进行点赞、感谢或者评论等反馈活动。
第二节 国内外研究现状
一、用户推荐方法的研究现状
(一)、用户推荐方法研究现状
推荐系统最初始于邮件系统Tapestry,该系统采用协同过滤进行垃圾邮件的识别(Goldberg,1992)。而随着网络技术的发展,新兴类型的网站的出现,推荐系统逐渐被运用到了电子商务网站、新闻、音乐、电影和餐厅等各种领域。在电影推荐领域方面,最早是由美国明尼苏达大学的学者开始研究,并建立了历史最悠久的推荐系统——MovieLens(Resnick,1994)。Miller的论文便研究了该电影推荐系统的推荐功能(Miller,2003)。在新闻推荐领域,Claypool在1999年提出了基于内容的在线新闻推荐方法(Claypool,1999);杨武等利用基于内容的推荐并融合协同过滤算法进行新闻推荐(杨武,2016)。在音乐推荐领域,Fletcher等通过协同过滤中进行基于用户个性化的音乐推荐(Fletcher,2015);徐静等提出了基于关联性和情感的音乐推荐方法(徐静,2018)。在餐厅推荐领域,Burke提出了一种混合推荐系统,并在基于知识的推荐部分提高了协同过滤的有效性(Burke,2002);张晓阳等通过餐厅评价数据挖掘餐厅好评信息以及餐厅标签,提出了一种餐厅推荐方法(张晓阳,2017)。在电子商务网站中,推荐系统主要向客户提供商品信息以及购买建议。洪亮和Tekin的论文主要研究了亚马逊网站的商品推荐(洪亮,2016;Tekin,2014);Li研究了国内电商网站京东、淘宝中的商品推荐功能(Li,2018)。
随着微博、Facebook、Twitter等社交网络的发展,社交网络平台上用户更多的是希望能够发现有相似兴趣、有相同经历或者是能够分享不同观点的新朋友。因此,推荐的内容不再仅仅局限于内容或商品的推荐,用户推荐的研究也越来越成熟。Kim研究了针对Twitter用户进行的用户和推文(Kim,2011);朱金奇等研究了基于地理近邻关系的微博用户推荐(朱金奇,2017);王嵘冰研究了基于相近兴趣领域的微博用户推荐方法(王嵘冰,2019)。
第二章 数据描述与数据处理
第一节 数据说明
本文的实验数据来源于国内较受欢迎的“知识型”问答社区——知乎。知乎中对于用户的提问通过话题进行分类,每个话题下有对应的问题以及相应的回答信息、评论、点赞等。根据实验需求,本文拟根据知乎中的“保险”话题的问答数据进行实验,需要获得以下三类数据:问题类、答案类以及用户类,同时需要验证推荐方法适用性,还需要获得“电子产品”和“园艺花卉”话题下的问答数据。
本实验数据的爬取是通过“Zhihu-OAuth”的python工具包进行爬取工作。该工具包提供话题、问题、答案、用户、评论等15类知乎数据的抓取功能。由于该工具包的信息抓取主要依靠各类数据的id编号,如:话题编号、问题编号以及用户编号等。因此,本实验的数据爬取步骤是先通过知乎网站搜索某一话题,并利用网页链接得到该话题的话题id;然后利用工具包的话题爬取类,抓取该话题下的所有问题id,包括问题描述、问题发布时间等问题类数据;利用问题id爬取到包括回答用户的id、答案描述、答案发布时间等答案类数据;最后通过回答用户的id获取包括用户回答数量、文章数量以及提问数量的用户类数据。
第二节 答案质量评估模型数据标注
模型所需数据类型为问题信息和答案信息。由于数据是直接从知乎平台上获取,因此需要手工标注是否是高质量答案。本实验对“非高质量答案”的标注原则是:没有回答全面、没有解决用户问题或者答非所问等。
通过对数据集进行标注后,“保险”话题下的答案质量评估模型正样本有2756个,负样本有2330个;“电子产品”话题下的答案质量评估模型正样本有2456个,负样本有1341个;“园艺花卉”话题下的答案质量评估模型正样本有1316个,负样本有768个。
另外,由于一些答案采用图片类数据,在抓取后显示的是Html标签类型,难以判断是否能够有效解决用户问题,因此本实验将没有任何文本的图片类答案标注为“非高质量”。
与答案质量评估模型所需数据一样,“是否针对问题推荐用户”同样没有相关的标注结果。但在已获得的数据集中,问题的答案部分来自于平台推荐的用户,也有不少答案来自于不请自答的用户。因此,对于回答了问题的用户,无论是否是平台邀请的,应当都可以作为被推荐的用户。但是,由于部分问题提问时间距离数据获取时间较短,可能出现有被邀请用户并未回答的情况,因此会使得答案数量较小。为了解决此问题,本实验将小于30条答案的问题和答案数据,不考虑作为专家用户推荐模型的实验数据。
第三章 推荐因子模型 ................................ 20
第一节 答案质量因子 .................................... 20
一、关键词词典构建 ............................................. 20
二、生成问题-答案对词向量 .................................... 24
第四章 融合答案质量评估的推荐模型 ...................................... 34
第一节 推荐模型问题定义 .................................... 34
第二节 逻辑回归模型 ............................................... 36
第五章 结论及展望 .............................. 47
第一节 论文实验总结 ......................................... 47
第二节 论文实验展望 .................................. 47
第四章 融合答案质量评估的推荐模型
第一节 推荐模型问题定义
基于上述获得的推荐因子,本实验构建融合用户答案质量的专家用户推荐模型。本实验推荐问题可以定义为:在给定问题的相关特征以及“专家用户”的相关特征,判断给某一问题推荐哪些用户。而这是典型的多标签分类问题,计算复杂度较高。并且,由于目前推荐问题研究中应用较为广泛的链路分析和协同过滤推荐方法同样存在计算复杂度高、数据特征挖掘及应用有局限性等特点。本实验将该推荐问题重新定义为:是否给某一问题推荐某一用户。则将推荐问题转换为二分类问题“推荐”或“不推荐”。通过问题转换,使得模型允许融入更多自定义特征,对于“专家用户”推荐问题进行研究。
在实验中,样本特征包括Liu等和Ni等研究中提到的问题和用户对应的话题向量、用户的权威度、活跃度,结合本实验提取的推荐因子:用户的答案质量因子、用户的信任度因子以及用户对问题的兴趣度因子。其中问题和用户对应的话题向量、用户的权威度、活跃度为对照组特征。
在模型方面,本文选择了逻辑回归、支持向量机、随机森林以及卷积神经网络共4类模型进行分析。为了验证推荐方法的适用性,并且“保险”、“电子产品”和“园艺花卉”三类话题具有一定的专业性,因此分别在这三个话题下进行了模型性能的对比分析。
第五章 结论及展望
第一节 论文总结
本文首先基于知乎“保险”话题下的实验数据集,共提取了三个推荐因子,分别是:答案质量因子、用户信任度因子以及用户兴趣度因子。
在答案质量因子中,本文为能够更加准确地衡量用户的答案质量,建立了答案质量评估模型。通过对融合了问题-答案对的词向量信息以及文本结构特征和非文本特征的对照组信息,分别进行建模和分析,可以看到卷积神经网络的答案质量模型得到的结果在精确度方面达到73.95%,查准率方面达到73.51%,在查全率方面达到82.86%在F1-score方面达到0.7791。尤其是查全率,说明融合文本语义信息、文本结构特征对于答案质量评估方面的识别较为有效。根据已得到的答案质量模型,对用户的答案进行预测,并基于预测结果计算用户在某一话题下的答案质量因子。
用户信任度因子是从谭学清等的公式化用得到的。在商品打分中,如果一个用户给某一件商品打分更接近于该商品的平均得分,则说明该用户对于该商品的评价质量较高。对于本实验中的问答社区,将某一问题的单位时间内点赞数是否更接近于该问题的单位时间内最高点赞数作为该用户在这一问题下的信任度系数。然后基于Zhang等提出的衡量用户对话题熟悉度的Z-Score指标,对用户的信任系数进行加权,最终得到这一用户的信任度因子。
用户兴趣度因子是对用户对某一问题感兴趣程度的衡量。本实验基于每一用户的历史回答内容,建立LDA主题模型,得到用户的话题兴趣分布,然后根据已建立的LDA主题模型对某一问题进行话题分析。最后通过问题和用户的话题分布情况,得到用户对该问题的兴趣度因子。
参考文献(略)