计算机论文参考代写:面向多情景的位置服务隐私保护算法思考与推广

发布时间:2023-04-11 21:17:40 论文编辑:vicky

本文是一篇计算机论文,本文提出了一种基于多维特征融合的假轨迹生成模型MFF-TrajGAN,该模型将假位置技术和GAN模型结合,生成保护隐私的合成轨迹数据。

第一章 绪论

1.1 研究背景及意义

近些年来,随着智能手机,平板电脑和其他物联网(IoT,Internet of Things)设备的激增,基于位置的服务(LBS,Location Based Service)已变得越来越流行,并开始塑造我们使用互联网的方式,在社会生活中发挥着极其重要的作用。LBS 功能强大且使用起来既简单又直接,但同时也带来了泄露用户隐私的风险。在发送 LBS 请求时需要提交用户的确切位置,该位置信息可以与 LBS 请求的时间和查询内容一起使用,以跟踪用户的运动并发现有关他们的更多隐私信息,例如用户的住所,生活方式等。一方面,对某些用户而言,其位置信息本身就是隐私数据;另一方面,攻击者可以根据位置信息来推测用户的个人身份、工作性质、健康状况或者兴趣爱好等隐私信息。例如:通过获取用户持续更新的位置信息,可分析其出行规律,预测未来所处位置;利用某些时间段内用户位置信息的统计数据,可推断出用户家庭地址和单位;结合地图等背景知识,可推断出用户的健康状况、生活习惯及宗教信仰等信息。服务提供商本身甚至可能出于广告目的将其敏感信息出售给第三方,从而损害了用户的隐私和权益。而且,LBS 本身的使用取决于用户的信任如果人们不信任他们提供的服务和信息,LBS 本身也就无法得到进一步的发展。因此,基于位置服务的隐私保护至关重要。

虽然现有方法都显示了保护位置隐私的能力,但它们也暴露了一些局限性。(1)首先,这些方法的目标在很大程度上是为了模糊轨迹位置,并增加更多的不确定性来保护隐私。然而,轨迹位置隐私保护的有效性与轨迹数据实用性之间难以权衡。(2)此外,目前的研究主要集中在轨迹位置数据的空间维度上,而很少考虑位置数据的其他语义信息。(3)此外,目前的方法严重依赖手工设计的程序,一旦过程公开,就有可能恢复原始轨迹数据。机器学习模型作为一个“黑盒”模型,可能有助于解决这个问题。(4)现有保护方案大多是一刀切的,考虑到并不是每一个数据都是同样敏感的,每一位用户的隐私需求也不尽相同,因此现有方案难以适应复杂多变的情景。因此,需要根据用户使用LBS的不同的情景,设计出适用于不同情景下的隐私保护模型、框架、算法等,并且处理好隐私保护与服务质量之间的矛盾,从而为用户提供更加安全、个性化的位置服务隐私保护方案,这便是本课题的意义所在。

1.2 研究现状

1.2.1 位置隐私保护研究现状

为了解决基于位置服务的隐私问题,国内外学者在先前的工作中已经提出了数种不同的方法。现有的大多数研究都关注于通过位置扰动和混淆[1-3]的方法来保护用户的位置隐私,这些方法通常采用诸如k-匿名[4]之类的隐私度量。Gruteser等人在文献[5]中首次将k-匿名这一概念引入了位置隐私领域并提出了一种自适应隐匿算法,该算法可以将用户位置隐匿于至少包含k个用户的区域中,使攻击者难以从至少包含k个用户的隐藏区域中识别出真实的用户位置。Bamba等人[6]提出了一种网格划分方法,该方法提供了两种算法:自上而下的网格隐藏算法和自下而上的网格算法,可以根据用户的需要进行选择。Xu等人[7]证明了k-匿名区域的大小对查询结果的一致性有很大影响,为匿名区域划分的研究提供了指导。在此基础上,文献[8-11]提出了多种几何形状的匿名区域构造方法。但是,这些方法过于依赖可信第三方(TTP,Trusted Third Party)[12-13],容易造成单点故障,而且大量查询信息也会造成性能瓶颈。

文献[3]和文献[14]中提出的解决方案通过在对等(P2P)用户网络中传输信息从而避免了通过TTP来隐藏位置。然而,移动设备交换信息所需的额外资源花销使得该方案难以实施。为了解决这个问题,Kido等人[15]提出在一组虚拟位置中来隐藏用户的位置的方法。Lu等人[16]提出类似的方法,该方法在覆盖用户位置的虚拟圆或网格内生成k- 1个虚拟位置,同时考虑隐藏区域的面积。Niu等人[17]通过位置熵度量假位置集的不确定性,通过最大化位置熵实现了假位置集的构建。Sun等人[18]针对统计攻击,根据隐私需求将地图区域划分为不同的保护要求等级,通过概率估计选择虚拟位置,可以防止攻击者通过分析历史记录判断真实位置信息的问题。夏兴有等人[19]基于半可信第三方服务的隐私保护系统结构,提出了一种根据用户历史查询概率分布选择假位置的匿名算法,并基于Stackelberg博弈对匿名结果进行优化。然而以上方案都没有考虑到用户位置的语义信息,不能保证构造假位置集的语义多样性。王洁等人[20]在构造假位置集时候则综合考虑了假位置的语义信息、查询概率以及地理位置,但是该方案需要提前构造好地区的位置语义树,而且只适用于POI类型较多的地区,实现匿名的条件较为苛刻,也很难达到预期的隐私保护效果。

第二章 相关背景知识介绍

2.1 位置隐私保护场景

现有研究的位置隐私保护机制按保护场景来分,主要可以分为三类:实时位置隐私保护、批处理位置隐私保护以及离线位置隐私保护。

计算机论文怎么写

(1)实时位置隐私保护:在实时位置隐私保护场景中,用户查询位置服务并期望立刻得到服务响应,需要实时得到隐私保护的应用主要包括导航应用、天气应用、地点搜索和社交游戏等。实时隐私保护机制面临的主要挑战是,它们只能处理现在查询的实际位置和历史位置,而不知道系统的未来状态。

(2)离线位置隐私保护:离线位置隐私保护机制在位置服务提供商收集移动数据,想要发布位置数据时开始发挥作用,这些收集的大量移动数据构成了时空关联的轨迹数据,轨迹隐私保护大多也发生在这个场景。离线位置信息发布可能是出于商业或非盈利目的,与第三方共享移动数据或发布一个数据集作为开放数据。离线位置隐私保护机制不是实时保护位置隐私,而是一次性保护整个移动数据集,可能会利用系统中所有用户的行为知识来应用更高效和更复杂的位置隐私保护方案。

2.2 位置隐私保护模型

k匿名模型和差分隐私模型是两种最普遍的隐私模型,并被广泛采用,并且仍然是随后文献中隐私保护方案的基础。这些模型提出了通用隐私保证,这些隐私保证原本并不专门针对位置隐私,但后来已成功应用于位置隐私。在这一小节中,数据集的概念不限于移动数据集,而是通用数据集,即具有属性的记录表。

2.2.1 k-匿名模型

k-匿名模型是Sweeney在2002年[4]提出的。该模型的主要思想是为了防止人们从记录表的属性的一个小的子集中唯一地识别到个人,这些能够唯一确定个人的属性称为准标识符。要保护的其他不属于准标识符的属性子集,称之为敏感属性。例如,在医疗记录中,出生日期、性别和邮政编码的三元组是一个准标识符,因为它足够唯一鉴定一些人,表中需要隐私保护的“疾病”字段是一个敏感的属性。k-匿名状态要受到保护,必须在至少k -1其他用户之间无法区分。为此,所有k个无法区分的用户记录表中的准标识符的所有属性必须具有相同的值。使它们看起来不可区分,形成匿名组。因此,没有外部背景知识的攻击者在匿名组中类似用户重新识别某人的概率最多为1 / k。

然而,尽管提供了2-匿名性,但表2.1中1969年出生的男性患者,邮政编码为0232的记录(即,最后两个记录)存在一个问题。因为最后两个人有着相同的敏感属性(即,相同的疾病),它们对他们的敏感属性并无保护。l-diversity的出现[38]解决了这一问题。它规定每个匿名组的敏感属性必须服从特定分布:每个匿名组必须至少有l个不同的敏感属性。

第三章 实时位置请求场景下的隐私保护方法研究 ........................... 14

3.1 问题分析 ............................................. 14

3.1.1 系统架构 .................................................... 14

3.1.2 攻击模型 ...................................................... 15

第四章 离线位置发布场景下的隐私保护方法研究 ............................................. 29

4.1 问题分析 ........................................... 29

4.1.1 基本概念 .......................................... 30

4.1.2 问题定义 ........................................ 30

第五章 隐私保护位置发布系统实现 ............................ 42

5.1 原型系统结构 .................................... 42

5.2 原型系统实现 ........................... 43

第五章 隐私保护位置发布系统实现

5.1 原型系统结构

本章基于第三、第四章对于实时和离线位置隐私保护两个场景的研究设计了隐私保护位置发布系统,该系统采用TTP架构,部署于用户和LBS服务器之间的匿名服务器上,同时,本文的匿名服务器还处于LBS服务器和第三方服务器之间。

计算机论文参考

隐私保护位置发布系统架构如图5.1所示,该系统部署于匿名服务器端,其中,实时位置发布模块根据第三章提出的基于多元数据的假位置算法设计,离线位置发布模块根据第四章基于多维特征融合的假轨迹生成模型设计,提供多情景的位置隐私保护。

第三章讨论的实时隐私保护发生在用户和LBS服务器之间,用户向LBS服务器实时查询位置信息时,该请求首先会经过匿名服务器根据用户设定的匿名参数进行相应的隐私保护处理,实现了个性化的位置隐私保护。第四章讨论的离线位置隐私主要是在LBS服务器向第三方服务器发布轨迹数据时发生的,LBS服务器向第三方发布大量的位置数据,而第三方可以从这些位置构成的轨迹数据中挖掘出更多有价值的甚至侵犯用户隐私的信息,所以有必要对这些发布数据进行一定的处理,使其不仅能够保护用户隐私,还能保持数据的可分析性。

第六章 总结与展望

6.1 总结

随着基于位置的服务的普及和发展,它在很大程度方便和丰富了人们的生活,这也使得通过使用移动电话、GPS设备和带有地理标记的社交媒体大规模地收集用户的位置数据的现象越来越普遍,海量用户位置数据被存储在云端服务器。大量的位置数据含着极大的学术价值和商业价值,但是这也给用户带来了隐私泄露的风险。本文将针对基于位置服务中不同情景下的位置隐私保护方法进行研究,本文主要从实时单次查询位置和位置分享中的轨迹发布两个场景出发,探究其中面临的位置隐私风险,并分别提出了一种基于多元数据得到假位置筛选算法和一种基于多维特征融合的假轨迹生成模型。论文的主要研究内容如下:

(1)实时位置请求隐私保护算法研究

针对当前大多数假位置隐私保护方案没有充分考虑攻击者具有的背景知识这一问题,本文综合考虑位置的查询概率、语义信息以及物理分布,提出了一种基于多元数据的位置隐私保护方案MDLS。首先基于大顶堆选择查询与用户真实位置查询概率接近的位置构成假位置候选集;然后通过计算候选位置与真实位置的物理距离以及语义距离筛选出物理分散且语义多样的假位置;最后生成一个包含用户真实位置且大小为的假位置集。本算法不仅能快速生成假位置集,而且能在很大程度上满足用户的实时位置隐私保护需求。

(2)离线位置发布隐私保护模型研究

针对社交网络中越来越多的LBS服务而产生的海量轨迹数据以及传统轨迹保护方法的缺陷。本文提出了一种基于多维特征融合的假轨迹生成模型MFF-TrajGAN,该模型将假位置技术和GAN模型结合,生成保护隐私的合成轨迹数据。首先基于轨迹数据的多维特征设计轨迹编码模型,将原始轨迹转换成特定轨迹的格式,其次,轨迹生成器获取历史轨迹数据的数据分布和模式,并基于它们对应的初始轨迹数据和随机噪声来生成轨迹判别器无法识别的合成轨迹数据,本模型生成的合成轨迹有效地兼顾了发布轨迹数据的隐私性和实用性。

参考文献(略)