本文是一篇计算机论文,笔者对社交网络影响最大化问题的研究,将帮助那些中小微企业在庞大的社交用户群体中,快速定位那些具有影响力的个体,然后通过“口碑效应”的传播,使这些中小微企业在初创阶段能够用最低的广告投入达到更好的产品营销效果。
第1章 绪论
1.1 课题研究背景
近年来,随着移动互联网技术的不断迭代进步,许多大型的社交网络平台得到了快速地发展,如微博、Meta(Facebook)、Instagram、推特、豆瓣等。这些社交网络在记录下社会中人与人之间关系结构的同时,还将用户聚类成大小不同的网络社区,使得信息能够在互联网上快速传播,从而让在线社交网络成为了一个巨大的信息传播平台。
但是,要充分的利用这些社交网络作为营销和信息传播途径,就必须面对许多挑战。例如一家公司需要在社交媒体上推广自己的产品,同时因为预算有限,不能通过大面积的广告投放来达到产品营销的目的。因此他们只能找到少量最具影响力的用户(Seed Nodes)来免费使用他们的产品,然后形成“口碑效应”来促进产品的销售。
在复杂的在线社交网络中,存在许多举足轻重的意见领袖(KOL),通过他们将会极大地促进影响和信息的扩散。因此,如果能从网络中找出这一小部分最具影响力的群体,然后把他们作为初始传播节点,那么影响和信息将能够在网络中得到快速而充分的传播。上述这个问题在复杂网络科学中就被称为社交网络影响最大化问题。
在复杂网络科学领域,社交网络影响最大化问题[1-5]就是在网络中找出最具影响力的K个种子节点组成的初始种子节点集S,并在特定的传播模型下激活它们,使其在网络中自由随机的传播,最终使得网络中受影响的节点数尽可能的多。
1.2 国内外研究现状
在社交网络影响最大化领域中,Domingos、Richardson[18, 19]首先将社交网络影响最大化问题转化为一个算法问题。随后,Kempe等人[20]把影响最大化问题,简化为一个离散优化问题。同时,Kempe等人[21]证明了对社交网络影响最大化问题的求解是NP难的,并将影响和信息在网络中的扩散过程简化为两种经典的传播模型,即IC独立级联模型(Independent Cascade Model)和LT线性阈值模型(Linear Threshold Model)。除此以外,还有比较常见的WC权重级联模型(Weighted Cascade Model)和热力学模型(Thermodynamic Calculation Model)等。对于社交网络影响最大化问题的研究,Kempe等人[21]首先提出了贪婪算法的求解方式,并对贪婪算法的最终性能表现给出了一个接近最优值解(1-1/e)的近似保证。
到目前为止,针对社交网络影响最大化问题的算法研究主要分为下面几种方式:(1)基于传统贪婪算法的改进算法;(2)基于复杂网络结构的启发式算法;(3)基于社区分类的算法;(4)各种智能进化算法;(5)以及其他解决方式,如图神经网络对复杂网络的特征表示学习等。
1.2.1 基于传统贪婪算法的改进算法
当使用贪婪算法在中大型复杂网络上搜索最具影响力的用户节点时,贪婪算法较低的时间效率和高昂的运算成本让其在社交网络影响最大化问题上的应用不具有良好的扩展性。鉴于此,后续的研究人员便对贪婪算法做出了改进,得到了具有较高扩展性的改进贪婪算法[22-25]。
在文献[22]中,Leskovec等人利用社交网络影响最大化问题目标函数的次模性性质,在传统贪婪算法的基础上,提出了CELF(Cost-Effective Lazy Forward selection)算法。CELF算法在取得和传统贪婪算法相同性能表现的同时,相比于贪婪算法的时间效率提升了700倍;随后通过持续挖掘求解社交网络影响最大化问题过程中出现的次模性,Amit等人[23]又提出了CELF++算法,其进一步改善了贪婪算法在面对中大型复杂网络时的时间效率,CELF++相比CELF算法提升了35%-55%的时间效率。
第2章 社交网络影响最大化问题的相关领域知识
2.1 社交网络
在真实世界中,每个人都拥有自己的社交关系网络。在这个关系网络中,影响和信息能够快速扩散。自21世纪以来,随着移动互联网技术的不断发展,许多大型的社交网络平台如腾讯、微博、Meta(Facebook)等取得了巨大的成功。这些社交网络在作为一个信息传播和市场营销平台的同时,还记录下了人们社交活动中的关系结构,这些社交关系结构呈现出一定的复杂网络结构特征。如在社交网络上,存在一些意见领袖,往往具有较多的关注者,因此他们拥有高影响力。随着互联网规模的不断发展,针对社交网络的研究变得十分重要。
2.1.1 社交网络影响最大化问题的定义
在社交网络影响最大化领域中,研究人员把复杂的社交网络简化为节点集V和连边集E组成的图结构G(V,E),如下图2.1所示。
2.2 影响传播模型
在计算机系统中,需要用到传播模型来模拟影响和信息的传播过程。在社交网络影响最大化领域中,有三种研究较为广泛的传播模型,即为IC独立级联模型、WC权重级联模型和LT线性阈值模型。
2.2.1 IC独立级联模型
在IC独立级联模型中,对于t时刻每一个处于激活状态的节点v,它将以概率vup去尝试激活它周围处于非激活状态的节点集u Neighbor(v)。如果()vup Random,则激活邻居节点,否则不能激活。对于每一个处于激活状态的节点v,只有一次机会去尝试激活它的邻居节点。
如果节点u被激活,那么在t+1时刻,这些处于激活状态的节点集将继续去尝试激活它们周围处于未激活状态的邻居节点。直到T时刻,网络中没有新的节点被激活,这个传播过程就终止。
在真实社交网络中,当一个用户的朋友越多,用户受其中一个朋友影响的概率就相对越小,即在权重级联模型中表现为节点被激活的概率越小。反之,当一个用户的朋友较少,那么朋友对其影响的概率就可能越大,即在权重级联模型中就表现为邻居节点对其激活的概率就越大。因此从社会学的角度来看,WC权重级联模型在一定程度上反应了真实社交活动中影响和信息的扩散机制。
第3章 基于节点影响评估函数的改进遗传算法 ............................ 21
3.1 引言 ...................................... 21
3.2 节点集影响评估函数 ................................. 21
第4章 基于社区发现的混合粒子群退火算法 .................................. 35
4.1 引言 .................................. 35
4.2 复杂网络的社区聚类特点 .................................... 35
第5章 结论 .............................. 55
5.1 总结 ..................................... 55
5.2 展望 .................. 56
第4章 基于社区发现的混合粒子群退火算法
4.2 复杂网络的社区聚类特点
在现实的大型复杂网络系统中,如在线社交网络、学者合作网络、交通网络、航空网络、电力网络[71, 72],这些网络大多表现出小世界、无标度、网络传递等特点。复杂网络的这些结构特性吸引了大量学者在复杂网络属性方面展开研究[73, 74]。除此之外,这些复杂网络系统还具有一个十分重要的特性,那就是复杂网络系统中的节点往往呈现出聚类分层的现象.
002年,Girvan和Newman[36]指出了复杂网络系统中的第三个重要特性,即社区聚类特性。社区聚类现象作为复杂网络系统中的一个固有属性,它表现为在社区内的节点往往具有更紧密的联系,并且在社区内的节点之间具有比对社区外节点更大的影响力。相反,由于社区与社区之间链接往往比较稀疏,从而导致不同社区内的节点对彼此造成的影响,相对于社区内节点之间产生的影响要小得多,如图4.1所示。对复杂网络系统中社区结构的挖掘,不仅有利于帮助学者更好地认识复杂系统的拓扑结构,还能在一定程度上揭示出复杂网络中节点聚类的特点和社区结构演化的规律。
第5章 结论
5.1 总结
在当前移动互联网时代,社交网络提供了巨大的红利,国内外互联网社交巨头如腾讯、字节跳动、微博、Meta(Facebook)、Google等公司正在通过庞大的社交网络平台进行密集的商业价值变现。近年来,基于用户群体的社交网络服务得到了迅速增长,越来越多的公司选择社交网络而不是传统媒体作为他们的市场营销媒介。对社交网络影响最大化问题的研究,将帮助那些中小微企业在庞大的社交用户群体中,快速定位那些具有影响力的个体,然后通过“口碑效应”的传播,使这些中小微企业在初创阶段能够用最低的广告投入达到更好的产品营销效果。
此外,由于社交网络影响最大化问题在2005年已经被Kempe等人证明是NP难的。所以对该问题的求解,为其他类似NP问题,如旅行商问题、最大团问题等,提供了解决思路。同时,对于社交网络本身,通过本次的研究,将更加了解人们在社交网络中影响和信息的扩散机制,为其他相关研究,如谣言控制、传染病预防等提供了一定的理论研究基础。在本文中,针对现有社交网络影响最大化算法存在的蒙特卡洛模拟耗时问题、遗传算法存在的低效率搜索问题以及离散粒子群算法容易陷入局部最优解的问题展开了研究,主要工作可以总结为以下几点:
(1) 研究了改进的遗传算法用于解决社交网络影响最大化问题,首先考虑了种子节点集在其Two-Hop区域外的影响扩散情况,提出了一个新的种子节点集影响评估函数LIEEX。从实验结果可以看到,LIEEX节点影响评估函数具有更高的准确度。此外,在对遗传算法的种群个体进行初始化操作时,采用了基于节点扩散度中心性的方法,为算法在进化的开端提供了一个良好的基础性能保证。另外,得益于GA-PSO算法采用的种群个体交叉策略,可以让父代个体中的优秀基因在每一轮迭代后更好地集中在一个后代个体中。最后,设计的方向向量能够引导种群个体朝着全局最优解的方向前进,这避免了遗传算法在突变操作时的盲目搜索。在最终实验结果上,GA-PSO算法改善了传统遗传算法的不足,让其在规模变化较大的复杂网络上具有不错的时间效率和性能表现。
参考文献(略)