本文是一篇电子商务论文,本文认为在某一时刻新激活用户由两部分构成,热度激活用户和社交激活的用户。热度激活用户数量受到上一时刻热度激活人数、话题吸引力、话题初始质量及重力因素的影响。
第一章 文献综述
第一节 话题传播影响因素研究
社会网络为巨复杂系统,具有小世界和无标度的特征,网络话题在网络中的传播扩散必然会受到社会网络结构、网络社群结构、用户群体数量、用户行为、话题内容等多方面、多维度的影响。概括来说可以分为内容特征、用户特征、网络结构特征、时序特征等。
内容是信息传播的主要内在驱动因素,在话题发布的初始阶段发挥着主导性的作用(Yano,2010),话题之间的差异对最后的话题覆盖范围、流行度有着显著的影响。社会网络的不断成熟,能够精确全面的记录下用户数据、行为数据和文本内容等,给学者们提供了极大的便利性现阶段文本内容的分析已被广泛应用于话题传播的研究中。Tsur & Rappoport(2012)在研究中将推文的字符长度、单词量、组合方式、词汇搭配等作为内容特征,证明了内容特征在流行度预测中发挥的重要作用。Yang et al.(2010)利用TF-IDF(Term Frequency-Inverse Document Frequency)方法对内容中关键词的重要程度进行衡量,进一步通过计算用户历史内容与该内容的相关程度来获取用户对该内容的喜爱或接受程度。Khabiri,Hsu & Caverlee(2009)对评论长度、主观性或客观性、可读性、内容熵、动词或名词数量等特征进行探索,发现人们对于可读性高和简短的推文有更高的转发倾向。Ma,Sun & Cong(2013)研究证明了当内容中提及到当前的热点话题时,往往更容易引发用户的传播。Tan,Lee & Pang(2014)证明了措辞和语言习惯对于信息传播的影响。Suh et al.(2010)研究证明了内容中包含的标签数量对于信息传播的影响。
第二节 传播模型研究
对于信息传播的研究,另一重要的研究方向在于抓住信息传播过程中的关键因素建立合适的信息传播模型。这类方法在信息扩散的研究中应用广泛,能够较为清晰地展示信息或话题在社会网络中传播扩散地全生命周期过程,并对其内在的普适性特征规律进行探索和发现,例如独立级联模型(Independent Cascade, IC)(Goldenberg et al.,2001)、线性阈值模型(Linear Threshold, LT)(Granovetter,1978)、传染病模型(SIR)等。
独立级联模型(Independent Cascade, IC)和线性阈值模型(Linear Threshold, LT)是信息级联模型的代表,定义了社会网络中信息通过用户之间的逐级影响进行传播的机制:传播群体中每个个体通过社会网络结构相连,每个个体的决定仅受他们一阶邻居的决定的影响。这个模式模拟了一种羊群的放牧方式,在这种情况下,一个人可以依据其最近邻的人的行动来作出行动决策(Schwämmle et al.,2007)。信息级联模型考虑底层的社会网络结构,通过网络中的节点以及节点与节点之间的影响来构建信息传播过程,从而进一步对信息的传播进行预测。独立级联模型和线性阈值模型均假设社会网络中的每一个节点均处于两种状态之一:还未获悉到某消息、观点、创新或产品的节点处于非激活状态(inactive),而已经接受了某消息、观点、创新或产品,甚至已经参与社会互动帮助传播的节点则处于激活状态(active)。两模型进一步假设处于激活状态的节点数量只会随着时间的增长而单调递增,即节点会由未激活状态转变为激活状态,但已激活的节点无法再次回到未激活状态。并且,一个处于未激活状态的节点被激活的概率与周围已激活的直接邻居节点数量成正比。
第二章 相关理论基础
第二节 内容热度模型研究
一、PageRank热度模型
PageRank是由Larry Page等人提出的Google最为有名的技术之一,无论是对于学术研究还是实际应用都有着十分重要的意义。概括来说,PageRank是一种基于随机游走的评价网站权值的算法,是定义在网页集合上的一个函数,通过该算法对每个网页给出一个正实数来表示网页的重要程度,PageRank值越高,网页就越重要,在互联网搜索的排序中就会被排在更前面的位置上。
考虑一个互联网网站的有向图,在该有向图的基础上定义随机游走模型,即一阶马尔可夫链,用来模拟网页浏览者在互联网上随机浏览跳转网页的过程。假设网页浏览者在每个网页上都会以相同的概率跳转到下一个目前网页连接出去的超链接网页,并在网络上持续不断的进行形如上述的随机跳转,这个过程形成一阶马尔可夫链。PageRank表示该马尔可夫链的平稳分布。一般而言,指向一个网页的超链接越多,随机跳转到该网页的概率越大,该网页的PageRank值就越高。PageRank完全依赖于网络的拓扑结构,一旦网络的连接关系确定,PageRank值就不会再改变。
二、Reddit热度模型
Reddit是美国最大的网络社区之一,如图2-1所示,网站上的每个文章前面都有向上和向下的箭头,分别表示"赞成"和"反对"。用户点击进行投票,Reddit根据投票结果,计算出最新的"热点文章排行榜"。
第三节 经典传染病模型
经典的传染病模型最早被应用于进行流行病爆发、传播及控制的研究。由于现代信息传播的机制和规律与传染病传播规律在很大程度上具有相似性,因此,在信息传播领域的研究中,仍有很大一部分在传染病模型的基础上研究话题传播模型。在传染病的经典模型中,人群被分为几个状态:
易感染状态S(Susceptible),代表尚未被病毒感染个体,处于易感状态。
感染状态I(Infected),代表已经被病毒感染的个体,并且处于该状态的个体有几率将病毒传染给周围的个体。
免疫状态R(Removed),代表感染后已经恢复健康的个体,并且处于该状态的个体已具备免疫力,不会再次被感染。
一、SI模型
最简单的传染病模型就是SI模型,在SI模型中,只将人群分为两类:易感染状态S和感染状态I。模型中假设传染病的病毒感染是不可逆的,例如HIV病毒引起的艾滋病,只要被感染就无法被治愈。SI模型的示意图如图2-3所示。
第三章 考虑热度和社交因素的话题传播模型构建 ............. 21
第一节 传播规则 ........................ 21
第二节 热度激活模型构建 ........................... 24
第三节 社交激活模型构建 .............................. 25
第四章 HIGGS话题数据集分析 ............................. 28
第一节 数据描述 ............................ 28
一、数据集来源 ........................... 28
二、数据集分析 .......................... 29
第五章 考虑热度和社交因素的话题传播模型仿真分析 ......... 38
第一节 仿真数据集 .............................. 38
第二节 仿真分析 .......................... 39
第五章 考虑热度和社交因素的话题传播模型仿真分析
第一节 仿真数据集
为了进一步验证提出的社会网络话题传播模型的有效性,并探讨其中参数的影响,本章将构建仿真网络对模型进行分析。
大量的研究表明,现实世界中的在线社会网络具有复杂性、无标度、小世界等特点。本文在第四章中验证了推特中Higgs话题参与传播的用户构成的社会网络结构具有无标度特性,因此在本章节中本文将建构无标度网络(BA)来作为话题传播扩散的网络。其中,BA网络节点总数𝑁𝑈𝑠𝑒𝑟=100000,每次加入边的数量𝑚=1。此外,考虑到实验数据集的网络结构差异问题,为了更好地描述社会网络话题传播的过程变化,实验过程中的参数c、Q、G、b、c将根据网络结构差异进行调整。
图5-1是BA无标度网络上的传播仿真结果,横坐标为时间步,纵坐标为激活人数。可以看出,在无标度网络中,每日新增话题参与用户数的趋势上呈现出先快速上升,会在2到3天达到单日增长的顶峰,而后逐步下降至平稳。这与观察到的社会网络中话题传播的规律是相符合的,话题的参与人数往往会在短时间内急剧上升而后又快速消失在大量的话题中,渐渐销声匿迹,只有零星用户会新参与到话题的讨论中。说明了本文所构建的考虑热度和社交的话题传播模型在BA无标度网络上也能够较好的反映出话题扩散的基本趋势。
第六章 结论与展望
第一节 研究结论及管理启示
一、研究结论
在互联网技术发展的推动下,人类社会正处于信息化的时代,也变革了传统的信息传播方式,大量的社会网络媒体平台不断涌现。但在信息传播的过程中往往会存在很多不确定的因素,这些来自内部或外部的因素都有可能会影响到信息传播的速度和最终的规模。因此,众多的学者和研究人员们也对信息传播相关内容产生了浓厚的研究兴趣,针对现实社会网络中复杂的传播现象建立简单却又不失重要特征的理想模型一直是近年来社会网络研究领域的热点,不可置否,这也是一个极富挑战性的难点。在现实网络中,话题传播存在着马太效应,热度成为推动话题传播的重要影响因素。社交网络的用户注意力分配具有倾向性,无论是社会网络平台设置的话题榜单还是根据一定算法排序出现的陌生用户内容都会加剧这样一种马太效应,越来越多的在线社会网络平台的用户在平台上参与某一个话题的传播不再仅仅是为了与好友圈进行互动,而可能是由于对时事热点的追逐。但关于热度在信息传播中的影响机制的研究还有所不足,本次研究就基于在线社会网络平台,建立了一个同时考虑宏观层面上话题整体的流行热度以及微观层面上参与话题传播的用户的网络结构的社会网络话题传播模型,获得的成果如下:
(1)本文在经典SI模型理论框架的基础上,结合了社会网络外部热度这一因素,重新细化社交激活的影响机制,在考虑热度和社交两个话题传播影响因素后,本文通过热度激活模型和社交激活模型两个部分的模型构建,综合构建出了考虑热度和社交因素的话题传播模型。本文认为在某一时刻新激活用户由两部分构成,热度激活用户和社交激活的用户。热度激活用户数量受到上一时刻热度激活人数、话题吸引力、话题初始质量及重力因素的影响。社交激活用户参与到话题传播中主要是出于社交的原因,并受到同一时刻热度激活用户的影响。该时刻的社交激活用户应在热度激活用户的已建立好友关系的用户集中产生。参考了传染病SI模型,构建了新的考虑社交激活部分的模型。利用Higgs话题的真实传播数据对提出的考虑热度和社交因素的社会网络话题传播模型进行了验证,以均方根误差和拟合优度为评级指标,结果表明,和SI模型、SIR模型相比,本文构建的话题传播模型拟合误差降低了93%,拟合优度达到了99%,能够很好地解释社会网络中话题传播的规模和整体趋势。
参考文献(略)