本文是一篇计算机论文,本文主要完成了基于多种特征分析下的单车需求量预测问题。首先,为了避免单车站点划分不当所带来的对需求量预测的不良影响,采用了能够快速在多个解空间中寻找出最优解的遗传算法来快速得到站点集群的最佳划分,并且主要依据站点间距离和站点间的通勤次数寻找站点集群的最佳划分。
第一章 引言
1.1 研究背景及意义
1.1.1 研究背景
交通预测是智能交通系统(ITS,Intelligent Transportation System)的基础组成部分。精确可靠的交通预测可帮助执行先行一步或动态的交通调控,亦可以给出精准的路线导航。这些服务系统可以帮助缓解公路的承载压力。而此篇文章要解决的问题是对各地域的共享单车需求量进行有效预测,从而更好地解决用户的代步问题。而单车需求量预测这一交通问题与其他交通场景问题如车流量预测和人流量预测一样具有复杂的动态性,所以传统的仅仅停留于分析数据特征的预测方法并不能有效解决单车需求量的预测问题。
随着共享单车在世界各地的普及[1-2],人们开始探讨这种出行方式给社会带来的经济效益[3-4]。共享单车因其不需要借助于燃烧能源而只需要借助人力产生动力被人们一致认为是低碳环保又健康的出行方式[5-6]。与此同时,有关交通部门也面临着一个不可回避的问题,即如何根据人们的骑行出行需求作出共享单车调度的问题,该问题能否得到有效解决将直接影响人们对共享单车的使用效率[2][7]。
对于一个交通问题,其所体现出来的动态性肯定离不开两个特性。一是空间性,即不同空间区域之间可能存在的某种联系或关系。为了更好地研究城市中共享单车的空间性,应把相近区域并且能够涵盖较小范围需求的一个或多个站点归类为同一个需求点,原因是当站点所处的需求点范围独立且只收到外界影响时容易考察各站点之间的相互影响。
1.2 国内外研究现状
目前针对需求量预测问题开展的相关工作主要围绕着两点进行:
一是通过分析用户的出行规律和出行模式,由于用户出行模式是分析交通运转方式的交通关键点,有关研究学者希望通过从用户的出行历史数据中总结出热点出行时间和高频的出行地点从而了解用户的出行分布规律,以此来为共享单车的调度工作提供更多指导。
二是将数据挖掘和数理统计的方法应用于数据特征的提取和建模当中,以此来达到从数据中发现用户对共享单车使用情况的变化规律的目的,通过构建起一套有效的深度学习模型,让模型对数据中隐含的特征规律进行学习从而赋予模型对未来情况的预测能力。通常这类模型都能够给予有关部门准确的数据指导,帮助有关部门实现对共享单车的合理分配和合理调控。
1.2.1 站点划分现状
出行规律可以让有关交通部门清楚地了解用户的出行需求,从而更好地作出调度工作,所以对出行规律的统计分析工作是必要的。针对于出行规律的相关研究工作集中在出行距离分布和出行目的两个点上。对于出行距离分布的分析,[8-10]都围绕着出行距离和出行持续时间展开,并且从其中的数据统计工作中可知,用户订单行程距离的平均值为2公里,并且最短的行程距离均在0.6公里以上。
对于出行距离和出行持续时间的研究可给予有关交通部门制定更加优化的政策,以纽约Citi Bike共享服务系统作为研究对象为例[11],从出行距离和出行持续时间两点出发,通过数据统计分析居民在各种出行高峰期间的出行分布规律,其目的是根据居民的出行分布规律制定最佳的租赁费用方案,统计结果显示60%以上的订单行驶距离在2.3km以上并且最短的行驶距离均在0.6km以上。
第二章 交通需求量分析理论
2.1 站点划分相关理论
用户出行规律在一定程度上可反映出用户的出行需求点分布,相关工作[13-15][20]基于用户出行规律将站点作出分类,目的是为了将具有相似需求点分布的站点做统一分析。对站点作如此处理有两点好处:
(1) 将具有不同用户出行规律的区域区分开,便于分析用户在不同区域之间移动的规律性。
(2) 增大整个集群数据特征变化的数量级,使得模型更易于感知数据特征随时间所产生的变化。 基于以上论点,本文将依据站点间距离与站点间订单来往频次对站点集群作出划分。使用遗传算法搜寻站点间距离与站点间订单来往频次在所有可能划分情况下的最优值。遗传算法属于优化算法并且具有良好的全局搜索能力,可将解空间中所有可能解快速搜索出来。如图2.2所示,遗传算法求解最优解的大致过程分为以下几步:
(1) 基因编码:依据优化对象的表现形式制定合理的编码方式。合理的编码方式能够提高适应度函数的计算效率。
(2) 初始化种群:按照(1)中编码方式初始化多个染色体个体,一般要求初始化种群内部各个体之间具有明显差异性。
(3) 评估适应度函数:利用基因编码解码出个体的数据特征,并使用适应度函数计算个体的适应度值。
(4) 个体选择:依据(3)中所得到的个体适应度值选择出用于产生下一代基因型的优越个体。
(5) 基因交叉:通过概率选择机制从(4)中随机挑选优越个体用于基因交叉操作,通过将两个个体中对应位的基因码进行交换产生新的优越个体。
(6) 基因变异:基于小概率触发机制实现的新个体产生方式,目的是为了扩大种群个体差异性,有利于让种群个体扩散到其他可行域中寻找最优解。
2.2 交通需求量预测理论
2.2.1 递归神经网络
事实上,交通情境中的数据特征在时间序列上呈现出强烈的关联性,以实际生活为例,不同阶级不同地域的人群在特定时间段的动向是有迹可循的,比如对于普通的工薪阶层上班族来说,在工作日的出行需求大部分是从居民区出发前往工作区。所以这时候位于居民区附近的单车需求量将增大;相应地,在下午的下班高峰期大量的工作人员将从工作区回到居民区,此时位于居民区附近的共享单车需求量将剧增。根据以上论述可知,在不同地区的不同时间段内应该以不同的单车数量去满足用户的骑行需求,即需求量数据特征在时间序列中呈现出一定的规律。
为了更好地让模型对数据中的时序性进行分析,本文采取LSTM(长短期记忆神经网络)模型来完成该部分工作。LSTM是基于RNN(递归神经网络)改进而来的具有强大时序数据处理能力的递归型神经网络,其中RNN模型是基于单个时间点架构组成的序列结构神经网络,RNN模型具体结构如图2.3所示:
如上图所示,每一个时间点对应于当前的数据输入,并且每一个时间点的输出不仅与当前输入有关,还与过去时间点的输出有关(这里的输出也称作细胞状态),这体现在图2.3中即意味着对于时间点t-1上的输出ht-1,ht-1不仅取决于t-2时刻的输出ht-2,并且还间接地受t-3时刻ht-3的影响,因为在ht-2中也包含着ht-3的信息。所以就RNN而言,该模型实际上是在处理时间信息的堆积。
第三章 单车站点划分算法 ........................................ 16
3.1 共享单车站点集群划分问题 ................................. 16
3.1.1 站点集群划分的必要性 .......................... 16
3.1.2 集群划分问题 .................................. 19
第四章 需求量分析与预测算法 ......................... 32
4.1 问题背景描述 ................................... 32
4.2 Ex-MGCN模型算法流程 ............................. 33
4.3 基于路网的空间相关性分析 ........................... 38
第五章 基于划分算法与预测算法的实验验证 ........................... 61
5.1 相关数据集介绍 ...................................... 61
5.2 探索性数据分析 ......................................... 62
5.3 数据预处理 .................................... 64
第五章 基于划分算法与预测算法的实验验证
5.1 相关数据集介绍
本文所要使用到的数据集包括单车使用情况数据集和纽约路网信息数据集,其中单车使用情况数据集采自2020年1月份至12月份纽约Citi Bike订单记录,共计56510条数据,单车使用情况数据集有关字段如表5.1所示;纽约路网信息数据集以独立路段为最小记录单位,共计120822条单位路段数据,纽约路网信息数据集如表5.2所示:
本文所有与城市结构相关的图表均基于表5.1和表5.2以及具体的地理坐标系统可视化得到(例如图4.4、图4.5、图4.16、图4.17),得益于多种地理坐标系统的存在,使得可视化图表中各物体对象间的相对位置能够贴近最真实的情况,并且完整的可视化工作步骤如下:
(1) 对数据集中站点经纬度信息进行提取,并在WGS84坐标系统根据经纬度信息标出具体位置。
(2) 将WGS84坐标系统转化为EPSG坐标系统(也称墨卡托投影坐标系统),得到站点在平面下的近似坐标。
(3) 确定可视化图表显示范围,依据此范围和站点在EPSG坐标系统下的平面近似坐标求出站点在可视化图表上的相对位置,依据所有站点在图表上的相对位置将站点在图表上标出,最终得到如图5.1所示的站点数据样本图。
第六章 结论
本文主要完成了基于多种特征分析下的单车需求量预测问题。首先,为了避免单车站点划分不当所带来的对需求量预测的不良影响,采用了能够快速在多个解空间中寻找出最优解的遗传算法来快速得到站点集群的最佳划分,并且主要依据站点间距离和站点间的通勤次数寻找站点集群的最佳划分。最终由用户出行需求所统计出来的用户出行分布显示本文划分方法能够一定程度地提高站点对区域出行需求的供应量。另外,在预测任务中,采用了GCN模型和LSTM模型来分别对单车数据中隐藏的空间特性和时间特性进行学习。获得了比其他预测方法更可观的性能。在实验部分,使用了来自纽约市的真实共享单车数据集对本文方法做了较为全面的实验验证,用图表的方式分析比较了本文所提出方法与其他方法的区别,并且得出结论,本文所提出的Ex-MGCN模型通过对多重空间关系的学习后,能够作出更加精准的预测。
本文在完成预测任务的同时,也存在着不足和缺陷。就数据预处理方面,本文方法需要大量的工作和时间成本。例如,在第四章节中所描述的POI相似性关系,该关系的构建因为数据的不完整性,需要人为地为每一个站点找出对应的POI属性,并且对于每一个站点对象需要人工地在百度API上寻找位置使用测量工具将附近近距离的POI地点找出来。另外在将数据输入之前需要对各种数据来源通过代码编写整理成模型能够识别的结构形式。因此对于本文方法在数据处理上的时间在整个研究当中已占有较大的比重。
参考文献(略)