新浪微博用户和信息的信用评估思考

发布时间:2021-11-20 21:25:47 论文编辑:vicky

本文是一篇计算机论文,本文基于 CoRank(Coupled Dual Networks Trust Ranking)的研究,提出 SWCoRank(Sina Weibo Coupled Dual Networks Trust Ranking)算法,该算法利用微博中用户和用户之间、博文和博文之间、用户和博文之间的各种关系和动作构建出模型,通过建模计算,得到用户和博文的信任值以及排名。


第一章  绪论


1.1  研究背景与意义

如今人们获取信息和沟通交流的一个重要途径是在线社交网络(Online Social Network,OSN),人们通过社交网络获取信息并做出决策。一些社交网络平台,如 Twitter、Facebook 这样开放的社交网络平台在世界上的很多地区都很流行。而在中国,新浪微博是主要的选择之一。

1.1.1 新浪微博和 Twitter 的不同

虽然新浪微博和 Twitter 都是在线社交网络,在功能上是相似的,但是他们在很多方面是有区别的,这些区别使得在研究的过程中,会产生诸多的不同和挑战。

1)Twitter 的全球化和新浪微博的本地化

虽然 Twitter 是一家美国公司,但是 Twitter 的用户来自世界各地,超过 70%的浏览量是在美国以外的地区发出的[1]。相比新浪微博,绝大多数的新浪微博用户来自中国,并且两个平台的用户几乎是分隔的。Twitter 用户使用各种语言来彼此交流,即使有翻译机制的存在,话题分离的现象还是比较普遍的,因为 Twitter用户的国家、地域和文化有很大的差别。比如说,美国的 Twitter 用户们不太会关心巴西的社会问题,除非是那些全球性的话题才会使得不同地区的用户都参与讨论,比如奥运会。相对应地,新浪微博用户使用的语言基本都是中文,相比Twitter 的环境,新浪微博的用户们在文化上更加相似,在地域上也更加接近。因此,新浪微博的用户在公共议题上,相比 Twitter,有更高的共鸣和参与度。

2)粉丝分布的不同

按照 Han 等人的统计计算[2],对于关注关系,新浪微博中粉丝分布的基尼系数更高。这就意味着,在新浪微博中少数几位很受欢迎的用户会吸收大量的粉丝。具体来说,Han 统计结果表明,有 0.1%的新浪微博用户吸引了整个社交网络内50%的粉丝。而 Twitter 的粉丝分布并没有这么夸张,受欢迎的 Twitter 用户也不会吸收如新浪微博一样多的粉丝。

......................


1.2  研究现状

1.2.1 社交网络研究综述

网络和计算机技术的发展带动了在线社交网络的迅速发展。根据统计[7],截止至 2018 年,Facebook 的月活跃用户为 22.6 亿人,是世界上最大的社交网站,YouTube 的月活跃用户为 19 亿,排名世界第二,微信拥有 10 亿的月活跃用户,是目前最大的中文在线社交网络平台,并且几乎所有的社交网络平台人数都在逐年增加,而新浪微博月活跃用户的增长速度相比众多社交平台,也是非常快的。一个热门的在线社交网络平台拥有上亿的用户基数,面对持续扩大的网络规模和更加多样的社交网络关系,随之出现了诸多相关领域的研究[8],如下列举了一些在线社交网络的研究方向:

1)社交网络数据的收集和测量

数据的获得是研究的基础和前提,但由于社交网络的运营商多为私人公司,考虑到商业机密和其他因素,多数向第三方开发商提供的 API 接口所共享的数据对于部分学术研究工作来说是不能满足需求的。因此如何收集数据样本,在收集数据样本的过程中如何保证数据的相对完整性和正确性,如何保证数据样本收集的效率和控制数据收集的时间成本和资源成本,都是需要研究的。

对于数据收集的工具,除了官方提供的 API 以外,编写网络爬虫,对开放式的社交网络进行数据收集是主要的选择。Chau 等人在 2007 年提出并行的网络爬虫框架[9],随着分布式架构,如 Hadoop 框架的发展,分布式的爬虫系统可大大改善在数据收集过程中的时间成本。

对于数据采集的策略,主要可分为有偏采样算法和无偏采样算法等。有偏采样算法主要的策略是按照节点度数的大小来选择接下来一个节点,可细分为广度优先搜索(BFS)算法、贪婪算法(greedy algorithm)、Lottery 算法等,Shaozhi Ye 等人曾使用上述提到的有偏采样算法在不同社交网络平台上进行采样并研究采样算法所得到的不同性质[10]。而无偏采样算法采用随机游走的策略,其采样过程可使用马尔科夫随机过程进行建模[11]。

..............................


第二章  相关技术介绍


2.1 CoRank 算法

CoRank [35,36](Coupled Dual Networks Trust Ranking)采用基于图结构评估分析的方法,其研究对象是 Twitter 环境,通过关注(follow)、评论(reply)、推文(Twitter 中的博文被叫做“tweet”,这里称 Twitter 中的博文为“推文”)发表(post)、推文被发表(posted)、转发(Twitter 中的转发称为“retweet”)和@(mention)的关系,对 Twitter 中的用户和推文进行信用评估。如图 2-1 所示,是整个 CoRank算法的过程。

图 2-1 CoRank 的过程

图 2-1 CoRank 的过程

整个 CoRank 分为四个阶段:

第一阶段,矩阵构建。使用用户与用户之间的关系(关注)、推文与推文之间的关系(评论和转发)、用户对推文的关系(推文发表),推文对用户的关系(推文被发表和推文@用户)分别构建出相对应的四个矩阵:U、T、N、M。

第二阶段,向量计算。四个矩阵通过和两个向量 P 和 Q 两两相乘并加权求和的形式,得到两组新的向量。

第三阶段,函数映射。使用映射函数,将上一阶段处理完的两个向量进行处理,得到新一代的 P 和 Q 向量。

第四阶段,判断收敛。将新一代的 P 和 Q 向量和上一代的 P 和 Q 向量进行比较,如果新旧两个向量相差较大,则进行下一轮迭代,如果新旧两个向量收敛至一个阈值内,则停止迭代,输出结果,整个计算评估结束。

..............................


2.2 PageRank 算法

PageRank 算法[37]是一种基于网络图的评估方法,其思想在很多文章中都有出现、运用和改进。PageRank 原文的目的是评估网页的受欢迎程度,对网页进行排序,在之后也被到用于社交网络图中结点的分析评估中。图 2-3 是 PageRank的一个例子,其中,有 4 个结点和 7 条有向边,在 PageRank 原文的语境下,结点的出度表示此网页通过网络链接指向其他网页,结点的入度表示网页链接指进来。比如图中结点 C 指向结点 A,表示 C 网页有一个网络链接指向了 A 网页,可以理解为 C 网页把它带有的 PageRank 值传递给了 A 网页。

ObjectRank 算法[38]可以理解为是 PageRank 的一个改进和衍生。图 2-5 是ObjectRank 所运用到的一个例子,表示的是 ObjectRank 原文中一个期刊数据库的关系图模型,不同结点代表文章、会议、作者和年份,有向边则表示引用、发表和被发表的关系,与年份相关时,表示于何时被发表。ObjectRank 不同于PageRank,他把一个网络图中的结点和有向边做了不同的分析和分类讨论,结点不再是只有一种类型,而是多种类型;有向边也不再是一种关系,而是多种关系。由于有向边的类型不同,所转移出去的值也会互相有所区别。比如在图 2-5 这个例子中,代表“引用”的有向边,转移值为 0.7,代表“发表”的有向边,转移值为0.2,年份给予文章 0.15 的转移值,文章则转移给年份 0.1,会议和年份互相转移0.3 给对方。

图 2-5 ObjectRank 权值转移示例图

图 2-5 ObjectRank 权值转移示例图

...................................



第三章  SWCoRank 算法 .................................. 18

3.1  信任的定义.......................... 18

3.2  新浪微博交互网络模型................................. 19

3.3  权重讨论 ......................................... 20

第四章  新浪微博用户与博文信用评估可视化系统 ............................ 42

4.1  系统简介.................................. 42

4.2 web 框架设计 ................................ 42

4.3  系统功能设计.................................... 43

第五章  总结与展望 ..................................... 53

5.1  总结........................................ 53

5.2  展望........................... 54


第四章  新浪微博用户与博文信用评估可视化系统


4.1  系统简介

本系统采用基于 flask 框架的 B/S 架构。在启动项目并运行的情况下,若运行正常,可以通过在浏览器上输入以“ip 地址+端口号”的形式来访问页面。本系统在用户完成注册的前提下,在用户登录系统后,用户可以上传一个,或多个指定格式的压缩文件。在交给后台服务器处理之后,将相关的结果存入数据库。用户可以通过查询相关的用户,得到相关用户的相关信息、粉丝关注关系图、博文互动关系图、在整个系统中相对应的排名以及不同排名方法得到的不同的排名结果。同时,在上传文件的时候,可以上传多个文件来表示几个不同时期所收集到的数据,对于不同时期中用户的社交关系的变化以及在整个系统中的排名变化可以通过图表的形式展示出来。“新浪微博信用评估系统”可实现两个主要功能:1. 当只上传一个压缩文件的时候,即只获得了一个时期的社交网络状况,可以通过查询新浪微博用户的 id,得到指定用户的社交关系图、排名结果等信息。2.  当上传多个不同时期所收集到的数据时,即获得到了社交网络按时间演化的实际状况,不仅可以得到第一个功能提到的各类信息,还可以通过可视化的方法,通过查看关系图和折线图,了解到不同时期,指定新浪微博用户在社交关系和排名结果方面的动态变化,用户可以直观地通过微博用户的社交网络图的变化,来认识到微博用户排名结果的变化。

.........................


第五章  总结与展望


5.1  总结

目前,社交网络平台中不可信的用户在社交网络上的活跃和虚假信息在社交网络中的传播不仅影响了用户对于社交网络使用的体验,在特殊情况下,错误的信息还会造成较坏的影响。目前对于社交网络的研究有数据收集和测量方向、用户行为分析方向和信息传播方向等,但针对新浪微博平台中用户和信息的信任评估的研究相对少一点,大多数的信用评估的研究对象是 Twitter、Facebook 等国外的社交网络平台,但是新浪微博平台在很多方面是与这些社交平台有区别的。另外,点赞动作作为非常能反应出用户对于博文信任的关系很少出现在信任评估的工作和研究中。本文基于 CoRank(Coupled Dual Networks Trust Ranking)的研究,提出 SWCoRank(Sina Weibo Coupled Dual Networks Trust Ranking)算法,该算法利用微博中用户和用户之间、博文和博文之间、用户和博文之间的各种关系和动作构建出模型,通过建模计算,得到用户和博文的信任值以及排名。本文的研究工作主要从以下几个方面展开:

1)提出 SWCoRank 算法

在 CoRank 的基础上,加入了前人没有使用到的“点赞”动作,引入单个用户所做出的“带有点赞的复合动作”的概念,进而改造 CoRank 算法中的 N 矩阵和 T矩阵。在处理数据的过程中,对于权重冲突问题、等级沉淀问题和数据缺失问题,对这些问题分别进行解决和处理。之后进行实验验证,编写网络爬虫用来收集数据,针对新浪微博中的真实数据,对数据进行处理、建模和计算,并将处理的结果与著名的 PageRank 和 TURank(Twitter User Rank)进行比较,并且对一系列的场景通过图表展示以及文字说明的方式,呈现出 CoRank 的各种性质,说明SWCoRank 的有效性,同时也说明了其他算法的不足之处。

2)设计并实现新浪微博信用评估系统

基于 Flask 框架,开发出基于 SWCoRank 的新浪微博信用评估系统。通过动态地展现出不同时期微博用户粉丝关注网络图、微博互动网络图的变化,让系统的使用者能够结合信用评估结果的情况,直观感性地了解微博用户在一段时间内的设交关系地的变化所导致的信用排名的变化。

参考文献(略)