掌桥专利:专业的专利平台
掌桥专利
首页

基于手机信令数据的特征与时序的城际出行模式辨识方法

文献发布时间:2023-06-19 19:28:50


基于手机信令数据的特征与时序的城际出行模式辨识方法

技术领域

本发明属于智慧交通工程技术领域,特别涉及基于手机信令数据的特征与时序的城际出行模式辨识方法。

背景技术

居民出行需求是城市道路基础设施规划与建设的基本依据之一,城市道路基础设施建设不仅涉及到市内交通网络建设,同时还包括连通城市的综合交通运输网络建设。传统的居民出行行为调查包括线下问卷调查、电话采访、邮件、网络问卷收集等方式。这些方法有着固有局限性,如覆盖范围小、覆盖率低、投入成本高、数据质量差等。面对跨市出行行为特征分析的需求,采用传统调查方式采集数据的难度和成本将进一步大幅提升。

近年来,随着智能手机的迅速发展和普及,基于移动网络数据的出行行为分析的研究已经成为热点。目前被应用于研究的数据类型可以分为两类:当用户使用服务(如呼叫、短消息服务或因特网)时记录的事件驱动数据((如呼叫详细记录CDR),和捕获信令事件的网络驱动数据(如切换、位置区域更新、定期位置更新)。其中基于网络驱动的数据又被称为蜂窝信号数据(CSD)。这些数据,通常由移动网络运营商在后台自动记录,用于计费、管理和维护,因此不需要最终用户额外提供。然而,受限于移动网络数据较低的空间精度和较长的采样周期,从这些数据中提取出行模式等移动性信息非常具有挑战性。

目前现有技术如下:

申请号:CN202011386165.9,申请名称:基于手机信令数据的居民出行量分布计算方法及系统,该申请公布了基于手机信令数据的居民出行量分布计算方法及系统,包括以下步骤:手机信令数据采集,通过移动通讯后台数据库采集用户一次性完整的手机信令数据,其中,手机信令数据包括匿名加密唯一用户标识,时间戳、基站编号和事件类型;手机信令数据处理,对手机信令数据中无效数据和乒乓效应数据进行清洗。本发明中,通过手机信令数据对用户的交通出行信息进行采集,从而分析用户的出行量信息,解决省级公路网层面的多交通方式居民出行量的统计计算问题,并对采集的手机信令数据中无效数据进行清理,提高数据处理效率,降低数据计算分析负担,且对采集的手机信令数据中乒乓效应数据进行清理,提高数据分析的准确性。

该申请只表述了提取特征数据,但是没有说明具体哪些特征,而本发明详细明确了根据本发明目的需要提取的数据特征类型;

该申请主要针对省级公路出行,统计公路网之间的OD量,本发明则考虑了高速、国省道、高铁、普铁等细分城际间交通出行方式;

该申请没有明确获取该出行量统计结果的方法,也没有明确特征量,而手机信令数据本身是不含有交通出行信息的。本发明详细表述了出行模式识别建模方法和识别准确率,具有较高的工程应用价值。

申请号:CN202011386165.9,申请名称:基于手机信令识别交通出行方式的方法与系统,该申请基于用户上报的手机信令数据实现。在实现过程中,首先基于用户上报的样本数据进行识别模型的训练,在剔除专有出行方式后,基于SVM二分类器的模型训练,采用年龄、性别、速度、瞬时速度、平均速度以及移动距离多维度特征进行训练,提高模型的辨识度和准确性;然后在预测模型的基础上,采用专用出行与SVM模型进行融合的方式,基于实际上报的信令数据进行特征提取并识别出出行方式;最后以时间序列为基础,将不同的出行方式的OD链合并,形成完整的交通方式出行轨迹段。

该申请中采用的是SVM二分类器对出行方式进行识别,本发明采用了基于随机森林+长短时记忆模型混合的 出行模式识别方法。

该申请中针对的出行方式包括高铁、动车、轻轨等轨道交通模式,本发明则考虑了高速、国省道、高铁、普铁等细分城际间交通出行方式。

该申请中采用了包括信令数据、个人信息、出行交通工具以及GPS数据等多源数据进行出行方式识别,而本发明仅基于手机信令数据进行建模计算,所需要的的数据获取量以及数据获取成本、难易度等远低于该发明,且通过构建混合模型得到了较高的出行模式识别准确率,具有较高的工程应用价值。

针对以上问题,本发明提出一种基于手机信令数据的城际出行模式识别算法,该方法利用手机信令数据和城际交通路网数据,生成面向出行模式识别的特性数据,并基于随机森林和长短时记忆模型构建混合算法模型,从而实现城际出行模式的高精度识别。

发明内容

为了解决以上问题,本申请提出基于手机信令数据的特征与时序的城际出行模式辨识方法,该算法基于大数据和机器学习理论,实现省域范围内居民跨城市细颗粒度出行模式识别和提出具有高置信度的模式识别方法。能够对已建城市间综合交通网络通勤现状进行评估,并为未来城市间综合交通网络规划和完善提供参考。

为实现上述目的,本发明采取的技术方案是:

本发明提供基于手机信令数据的特征与时序的城际出行模式辨识方法,包括以下步骤:

步骤S1,城际出行路网提取:从开源数据中提取涉及城际出行的路网类型并对出行路网的路网类型进行标识;

步骤S2,根据步骤S1提取的路网类型,绘制和构建城际出行路网, 网图的构建以开源地图为基础;

步骤S3,沿步骤S2构建的城际出行路网,并以基站信号覆盖直径作为路网线路宽度构建路网缓冲区,然后提取缓冲区内所有基站,并为基站标记上路网类型信息,形成基站列表;

步骤S4,根据建立的基站列表和手机信令数据采集库, 数据库由运营商提供,无法私人获取,从中提取手机信令打点数据即手机信令数据打点记录后的数据的字段中存在“位置上报地市”跳变的信令数据;

步骤S5,以提取的4G基站列表为中介,其中4G基站列表通过步骤S3 获取,将步骤S4中存在“位置上报地市”跳变的信令数据与步骤S2 构建的网图的路网信息进行关联,从而确定信令数据打点落在哪个或哪几个路网类型的缓冲区中,从而构建跨城市打点的手机信令数据的特征列表

步骤S6,定义以下特征参数:

步骤S7,构建基于随机森林和长短时记忆模型的混合模型,以步骤S6得到的特征列表

作为本发明进一步改进,所述步骤S1中涉及城际出行的路网类型包括国省道、高速公路、普铁和高铁,并以{GDGS、GG、TS、TG}进行表征。

作为本发明进一步改进,所述步骤S4提取的存在“位置上报地市”跳变的信令数据中,通过输入关键字查找相关说明,若存在地址反复跳变情形的跳变数据,选择丢弃。

作为本发明进一步改进,所述步骤S5中构建跨城市打点的手机信令数据的特征列表

T={mdn,time,cID,LON,LAT,GG_R,GDGS_R,TG_R,TS_R,RS,PS}

其中,mdn表示信令数据手机端用户唯一编码,time表示信令数据采样时刻,cID表示信令数据打点的4G基站的编号,LON表示基站的经度,LAT表示基站的维度,GDGS_R为国省道标识,GG_R为高速公路标识,TS_R为普通铁路标识,TG_R为高速铁路标识,RS为火车站标识,PS为客运站标识。

作为本发明进一步改进,所述步骤S6中单个打点第i个时刻的特征列表

其中,

当时

上式中,

作为本发明进一步改进,所述步骤S7的具体步骤包括:

(1)提取样本数据集:从特征表

式中,

(2)样本出行状态人工标记:对样本特征表

式中,

(3)将

随机森林由复数个决策树组成,经过复数次决策投票的结果作为采样点的出行状态的最终预测结果

经过随机森林模型训练的样本数据的出行状态预测结果集为

(4)对上一个步骤中的出行状态预测结果

式中,

(5)将步骤(4)转化后的特征数据

然后,将训练组

作为本发明进一步改进,所述步骤S7的步骤(4)中所述出行状态预测结果

作为本发明进一步改进,所述步骤S7的步骤(5)中所述训练组

作为本发明进一步改进,所述步骤S7的步骤(5)中将转化后的特征数据

首先,根据训练组单个手机用户采样点个数,设定最小批量组总组数为M的数据进行等分;

分别提取组内最长轨迹的长度

得到经过补全后的最小批量组第

其中

即;

将训练组和验证组数据导入构建的LSTM模型进行网络训练;

待网络训练结束后,将测试组数据导入网络进行计算,得到出行模式分类结果。

作为本发明进一步改进,所述步骤S7的步骤(5)中训练组

与现有技术相比,本发明利用手机信令数据和城际交通路网数据,生成面向出行模式识别的特性数据,并基于随机森林和长短时记忆模型构建混合算法模型,从而实现城际出行模式的高精度识别,在省域范围内居民跨城市细颗粒度出行模式识别和提出具有高置信度的模式识别基础上能够对已建城市间综合交通网络通勤现状进行评估,并为未来城市间综合交通网络规划和完善提供参考。

附图说明

图1为本发明中技术方案流程示意图;

图2为本发明中混合模型框架示意图;

图3为本发明实施例中江苏省内交通路网图;

图4为本发明实施例中部分样例数据的城际出行轨迹图;

图5为本发明实施例中样本数据个体轨迹打点数分布图;

图6为本发明实施例中不同出行模式下的平均加速度分布图;

图7为本发明实施例中不同出行模式下的采样时间间隔分布图;

图8为本发明实施例中不同出行模式下的采样距离间隔分布图;

图9为本发明实施例中基于随机森林的分类结果混淆矩阵图;

图10为本发明实施例中基于混合模型的分类结果混淆矩阵图。

具体实施方式

下面结合附图和具体实施例对本发明作出进一步说明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示为基于手机信令数据的特征与时序的城际出行模式辨识方法,包括以下步骤:

步骤1:根据现有的城际出行主要方式,确定城际出行涉及到的路网类型:本方法涉及城际出行路网类型包括国省道(限速60-100km/h)、高速公路(限速100-120km/h)、普通铁路(时速250km/h及以下)和高速铁路(时速300km/h及以上)四种类型路网分别用{GDGS_R、GG_R、TS_R、TG_R}进行表征,同时以{RS、PS}定义火车站和客运站;

步骤2:根据上一步确定的路网类型从开源地图数据库等渠道中抽取和绘制对应的城际出行路网并分别进行路网类型标记;

步骤3:假设单个4G基站的最大覆盖半径为L,则以2L为宽,路网线段为中线,构建路网缓冲区,提取缓冲区内所有4G基站,并为基站标记上对应路网类型信息,若单个基站落在多个路网缓冲区内,则标记上所有对应路网的信息;

步骤4:信令数据格式如下:

根据手机信令数据,设定数据提取时间区间为每日的00:00:00-23:59:59,提取在上述时段内的存在“位置上报地市”跳变的信令数据。

进一步的,若存在“A-B-A-B”这样的“位置上报地市”跳变数据,则表示该数据为乒乓数据,选择丢弃;

步骤5:以4G基站列表为中介,实现手机信令数据与路网信息的关联,使用0(false)、1(real)表示该基站是否落在步骤(1)中所定义的路网类型的缓冲区内,并初步构建信令数据表T={mdn,time,cID,LON,LAT,GG_R,GDGS_R,TG_R,TS_R,RS,PS},其中mdn 为信令数据加密编号,用以表示用户唯一编码,time 为采样时刻,cID表示信令数据打点的4G基站的编号,LON和LAT分别表示基站的经纬度。

步骤6:根据初步建立的表T,分别计算每个mdn的打点时间间隔

步骤7:根据两个连续点之间的经纬度差计算距离作为两个打点之间的近似里程

步骤8:同时进一步地,根据两点之间的经纬度,计算得到当前点与上一点之间的余弦角

步骤9:根据以上计算,得到对应mdn编号的手机用户在当日的单个采样点的特征表

同时根据城际出行的基本路径,将出行模式分为Type={静止(Static)、国省道(GDGS)、高速(GG)、高铁(TG)、普铁(TS)},作为需要通过机器学习分类识别的出行模式类型;

通过步骤1-9,完成了手机信令数据向交通特征数据的转化,并为每个mdn建立了特征列表,根据建立的特征列表,如图2所示构建基于随机森林和长短时记忆模型的混合训练模型:

第一步,从特征列表中随机提取n个mdn编号的手机用户数据作为混合模型训练的样本数据,根据单个手机用户当日采样点个数由少到多对样本数据排序,并使用数字编号1-n代替原来手机用户的mdn编号对样本数据进行标记,则样本数据的特征列表如下:

样本数据中任意一个手机用户的单个采样点特征表表示如下:

其中

同时对该样本数据每个采样点的真实出行状态进行标记,真实出行状态为:

样本数据中任意一个采样点的真实出行状态表示如下:

第二步,将

从N个采样点中采用随机选取的方式选择80%的样本数据作为模型的训练集,剩余的20%作为测试集,并进行5次交叉验证,随机森林由复数个决策树组成,经过复数颗决策树投票结果,用多数树的投票结果作为对单个采样点的出行状态的最终预测结果

那么经过模型训练的样本数据的出行状态预测结果为:

第三步,对第二步得到的

其中

表示将/>

第四步,将

其中

同时考虑到单个手机用户轨迹采样点数随出行模式、距离等因素的变化,并非完全一致,在将数据导入构建的LSTM模型时需要对数据长度进行补全,为了尽量减少由于数据补全导致的数据特性发生变化从而影响到分类结果,根据训练组单个手机用户采样点个数,设定最小批量组总组数为M对数据进行等分,分别提取组内最长轨迹的长度

将训练组和验证组数据导入构建的LSTM模型进行网络训练。待网络训练结束后,将测试组数据导入网络进行计算,得到出行模式分类结果。

根据本发明所列步骤,使用中国电信2021年7月11日至15日在江苏省内采集的部分城际出行数据进行实例验证,电信4G基站最大覆盖半径为500米,江苏省域路网图如图3所示,部分样例数据的城际出行轨迹图如图4所示,总共从数据库中随机挑选了443条出行数据,样本数据中个体轨迹数据采样最少为4个点,最多为79个点,数据特性如图5-8所示:

根据上述样本数据,分别使用随机森林模型和上文所述的混合模型进行分类结果准确性评估。从图9和10对比中可知,基于混合模型的分类极大地改善了GDGS、TG和TS出行模式的分类准确性,其中,对国省道出行模式的分类准确性从68.8%提升到了80.1%,对高铁出行模式的分类准确率从76.3%提升到了97.2%,对普铁出行模式的分类准确率从84.5%提升到了98.4%。

以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。

相关技术
  • 一种基于手机信令数据的城际出行扩样方法
  • 一种基于手机信令数据的城际出行扩样方法
技术分类

06120115924972