本文是一篇计算机论文,本文在预测方面的关注重点是短期预测,真实的群智感知任务可能需要更长时间的预测来降低其成本,因此,如何设计合理的预测模型以完成稀疏数据的长期预测也是一个值得考虑的问题。
1.绪论
1.1.研究背景及意义
随着信息社会和无线智能设备便携性的快速发展,移动群智感知(Mobile CrowdSensing,MCS)[1]已经成为一种群智感知和移动设备[2][3]相结合的新型数据采集模型。其凭借着强大的数据收集能力受到了工业界和学术界的广泛关注。移动群智感知主要雇佣携带智能设备的用户,基于这些用户的移动性形成广阔的数据收集网络以覆盖一定范围的感知区域,进而从目标感知区域收集数据,执行各种感知任务。不仅如此,5G通信技术发展[4]和传感器的工业进步更是促进了该领域的发展,更多的智能设备得以开发,设备内部集成了更快速的数据传输架构,更丰富的数据感知元件,更强大的数据存储和计算能力,也使得移动群智感知这一新颖的数据采集模式具有越来越多的理论价值和使用价值。
典型的移动群智感知系统主要有三个组成部分[5],任务需求方,工人(即移动用户)和群智感知平台。整个系统的工作流程主要分为五个部分:发布任务,即群智感知平台接到数据需求,将某个感知任务划分成若干个感知子任务,通过某种方式发布这些任务并采取激励机制吸引工人参与其中;数据感知,即工人得知任务后,根据自身情况决定是否参与感知任务并选择自身的传感器采集数据;前端处理,即参与的用户在移动智能终端将感知数据进行必要的处理;数据传输:即采用安全的隐私保护手段将数据传输到感知平台;数据管理与分析,即感知平台对收集到的数据进行管理和分析,以此构建各类感知应用或将数据交给数据需求方。移动群智感知系统凭借着其感知广,部署快,拓展强等优点,在环境监测[6],交通管控[7],城市感知[8]等多个领域得到了广泛应用。
1.2.本文研究内容与贡献
在本文中,我们将注意力从补全当前的未感知数据转向从稀疏的感知数据中补全和预测未来整个感知区域的数据。我们通过利用稀疏移动群智感知,提出了一个时空数据补全和预测框架,其包括数据补全、数据预测和迭代更新三个部分。首先,我们提出了一种带有时空约束的基于矩阵分解的补全算法,从稀疏感知数据中补全完整数据,利用低秩属性和现实世界普遍存在的一些时空关系,可以解决从稀疏数据中难以提取足够多的时空关系的问题,从而提高补全精度。需要注意的是,添加的时空约束不仅指导了补全方向,而且保留了潜在的预测时空相关性。然后,我们提出了一个具有时空注意力的图卷积神经网络模型来预测未来。在获得了完整的补全数据之后,我们就可以利用这个图卷积神经网络模型来提取感知数据之间更多的时空相关性,并利用注意力来辅助预测。最后,利用数据预测中的时空注意力矩阵迭代更新数据补全中的时空约束矩阵,以增强相关性,提高数据补全和预测的性能。
我们的工作有以下贡献:
我们在稀疏移动群智感知背景下提出了细粒度的时空数据推断问题,目的是从稀疏的感知数据中补全和预测整个感知区域的感知数据。
我们提出了一种具有时空约束的基于矩阵分解的补全算法,利用时空关系和矩阵分解算法,从稀疏的感知数据中补全当前的完整数据。
我们提出了一个具有时空注意力的图卷积神经网络模型,基于补全后的完整数据,利用时空关系和卷积算法,预测未来的数据。
我们设计了一种迭代更新机制,迭代地修正补全和预测阶段的时空约束和时空注意力,以加强补全和预测的联系并提高两者的算法性能。
3.基于矩阵分解的时空数据补全方法
3.1.问题形成
问题[稀疏移动群智感知下的数据补全]:给定一个移动群智感知任务包括m个子区域和n个感知轮次,对于每个轮次,我们只能从一小部分子区域感知数据,之后,以最小化预测误差为目标,利用稀疏数据补全当前数据:
我们现在提供一个实际的运行示例来更详细地描述数据补全问题。如图3.1所示,假设我们有一个感知任务,需要收集8:00到19:00点的整个目标感知区域的数据。为了提供细粒度的结果,我们将目标感知区域划分为5×4个子区域,感知轮次设置为1个小时,即每1个小时从这些子区域收集数据(如图3.1感知系统所示)。为了降低成本和处理一些无法到达的子区域,对于每个感知周期,只有少数几个子区域可以被感知到,例如,在8:00,我们只能获得3个子区域感知到的数据,在经过11个小时之后,当前时间为19:00,我们在这个感知轮次从4个子区域获得了感知数据。我们希望利用数据补全算法来补全从之前感知轮次直到当前感知轮次下的未感知数据(如图3.1补全系统所示)。对于本文,我们利用具有时空约束的矩阵补全算法从稀疏数据中补全完整数据
3.5.性能评估
3.5.1.数据集
为了真实地评估我们提出的时空数据补全和预测方法性能,我们引入了四个真实世界的数据集。其中Sensor-Scope和U-Air是关于城市环境感知数据的,而TaxiS peed和Traffic Volume Viewer是关于城市交通感知数据的。四个数据集的主要信息如表3.1所示,接下来我们介绍四个数据集的详细信息:
Sensor-Scope:Sensor-Scope是一个环境信息的数据集,包括温度,湿度,以及其他一些环境信息。本文所选用的是湿度数据集。这个数据集有57*336条数据,是通过放置在EPFL校园内部的固定传感器收集的。这些传感器覆盖57个区域,并将每半小时所记录的平均值作为真实值,持续收集7天的数据。
U-Air:U-Air是一个空气质量数据集,包括PM2.5,PM10,SO2等空气质量信息。我们选用了PM2.5数据集。这个数据集有36*264条数据,通过设立在中国北京的空气质量监测站进行收集的。数据集一共包括36个监测站,每个监测站每半小时记录一次PM2.5浓度数据,持续7天。
TaixS peed:TaixS peed是一个关于车流动性的数据集,主要记录了某一路段一定时间内的车流速度。该数据集通过设置在出租车上GPS设备收集数据,包括100*96条数据。其一共记录了100条路段7天的数据,频率为每半小时记录一次。
Traffic Volume Viewer:Traffic Volume Viewer是一个车流量数据集,主要通过澳大利亚新南威尔士洲设置在道路上的交通信息收集站记录大小型车数量收集数据。该数据集包括自2006年来超过60个收集站所收集的数据。在本文中我们选择了30个收集站下小型车2018年每天的车流量作为实验数据。
3.基于矩阵分解的时空数据补全方法.......................10
3.1.系统建模........................................10
3.2.问题形成........................................11
3.3.时空矩阵分解方法................................12
4.基于图卷积神经网络的时空数据预测方法.................25
4.1.系统建模........................................25
4.2.问题形成........................................25
4.3.整体结构........................................27
5.时空关系迭代更新方法.................................40
5.1.系统建模........................................40
5.2.问题形成........................................41
5.3.时空关系迭代更新................................42
5.时空关系迭代更新方法
5.3.时空关系迭代更新
我们已经在两个模块都利用时空关系,需要有一种方式来将其联系起来,以提供更准确的时空关系。事实上,数据补全中的时空关系更多的是真实世界普遍存在的规律,如地点之间的距离,时间间隔的大小,而数据预测中的时空关系更倾向于数据内部蕴含的关系。更具体地说,假设存在两个位置A和B,我们想通过A的温度数据补全B的温度数据。如果A和B的距离很远,而由于气候等原因,A和B的温度比较相似。在这种情况下,我们就可以通过数据间存在的空间关系补全出与A相似的B的温度,而如果通过真实的地理位置考虑,由于距离过远,可能会有比较大的误差。这意味着我们可以利用从数据层面提取的灵活的时空关系来弥补现实层面的固定的时空约束关系,使得补全数据更准确。因此,我们提出了一种迭代的方法,利用数据预测中的时空关系,迭代的修正数据补全中的时空关系,如图5.2所示。
6.结论
6.1.结论
在本文中,我们主要关注于稀疏的移动群智感知场景,深入研究了稀疏数据的推断问题,将注意力不仅放在稀疏数据在当前时刻的补全问题上,也考虑了稀疏数据在未来时刻的预测问题。我们在稀疏移动群智感知环境下提出了一个城市数据推理和预测框架,该框架由数据补全,数据预测和迭代更新三部分组成。首先,我们提出了一种带有时空约束的基于二部图的矩阵补全算法,从历史数据中恢复完整的感知地图的数据,然后,我们提出了一个具有时空注意力的图卷积神经网络模型来预测短期未来的数据,最后,我们利用补全和预测两者都存在的时空关系,通过一种迭代更新机制将两者的时空关系矩阵进行更新,一方面增强两者之间的联系,另一方面,提高数据补全和预测的性能。我们利用两种典型的城市感知任务下的四个真实世界的数据集对补全和预测方法进行了评估,包括城市环境监测(PM2.5,湿度)和城市交通管控(车流速度,车流量)。结果表明,该框架下的两种方法对稀疏感知数据具有交通的补全精度和预测精度。
参考文献(略)