掌桥专利:专业的专利平台
掌桥专利
首页

基于出行目的的驾驶人出行模式挖掘方法和系统

文献发布时间:2023-06-19 16:04:54



技术领域

本发明涉及数据挖掘技术领域,具体涉及一种基于出行目的的驾驶人出行模式挖掘方法和系统。

背景技术

随着经济和社会的不断发展,汽车保有量和驾驶人数量的持续增长以及我国交通事业迅速发展,但一些问题也随之而来,如交通拥堵、企业对于驾驶人的需求不够精准等。精准识别驾驶人的出行模式对于解决这些问题有很大的帮助。

传统的对于驾驶人出行模式的研究主要集中在两方面:一方面是采用问卷调查的方式,对驾驶人的日常出行进行调查,这样获得的出行模式存在样本覆盖面窄、主观性较高、出行模式识别不够全面等问题;另一方面是利用手机GPS数据或者车载数据采集装置,识别出驾驶人出行的时间、空间、距离等特征,但是大多数是直接根据这些特征来分析驾驶人的出行模式的,没有考虑到出行目的这一层面。出行模式是在出行目的基础上的一种出行行为,出行目的决定了用户的出行模式,是引起个体出行以及出行行为改变的内在原因。基于出行目的研究出行模式更能反映驾驶人对产品或者服务的需求,且解释性更强,更有说服力。

目前出行模式识别方法主要是根据出行的时空特征,利用聚类算法对时空特征进行聚类以识别出不同的出行模式特征。目前的研究方法不能够很好的挖掘驾驶人的出行模式,存在识别出行模式不全面、可解释性不高的问题。

发明内容

(一)解决的技术问题

针对现有技术的不足,本发明提供了一种基于出行目的的驾驶人出行模式挖掘方法和系统,解决了目前的研究方法不能够很好的挖掘驾驶人的出行模式,存在识别出行模式不全面、可解释性不高的问题。

(二)技术方案

为实现以上目的,本发明通过以下技术方案予以实现:

第一方面,提供了一种基于出行目的的驾驶人出行模式挖掘方法,该方法包括:

获取不同驾驶人的出行片段;

基于日期类型划分规则对驾驶人的出行片段进行分类,并在每一个日期类型下对驾驶人的出行片段提取其时空特征;所述时空特征包括到达时间类型、停留时长类型以及到达点POI类型;

将每个日期类型下的每个驾驶人的所有出行时空特征作为一个文档,利用LDA模型识别每个日期类型下所有驾驶人的出行目的,得到用于表达出行目的与时空特征关系的主题-词汇概率分布和用于表达驾驶人与出行目的关系的文档-主题概率分布;并基于主题-词汇概率分布获取各个出行目的的描述;

基于文档-主题概率分布对每个日期类型下的驾驶人进行聚类,得到若干个驾驶人类群,每个类群表示具有某种相同出行模式的驾驶人集合;

结合出行目的的描述以及聚类结果对出行模式进行挖掘。

进一步的,所述获取不同驾驶人的出行片段,包括:

获取车辆的行程数据,并进行数据清洗;

基于发动机状态对行程数据进行划分,得到出行记录;

基于停车时间对出行记录进行划分,得到出行片段。

进一步的,所述基于日期类型划分规则对驾驶人的出行片段进行分类,并在每一个日期类型下对驾驶人的出行片段提取其时空特征,包括:

日期类型划分为四个部分,H={h

且到达时间类型包括:

at={slot-1,slot-2,slot-3,slot-4,slot-5}

其中,slot-1代表的结束时间的小时时刻区间为[0,5],slot-2为[6,10],slot-3为[11,14],slot-4为[15,19],slot-5为[20,23]

停留时长类型包括:

sd={short-stay,mid-stay,long-stay,long-long-stay}

其中,short-stay表示停留时长小于1小时;mid-stay表示停留时长大于等于1小时并且小于3小时;long-stay表示停留时长大于等于3小时并且小于8小时;long-long-stay表示停留时长大于8小时;

达点POI类型包括:

POI

其中,POI

进一步的,所述将每个日期类型下的每个驾驶人的所有出行时空特征作为一个文档,利用LDA模型识别每个日期类型下所有驾驶人的出行目的,得到用于表达出行目的与时空特征关系的主题-词汇概率分布和用于表达驾驶人与出行目的关系的文档-主题概率分布,包括:

文档

其中,n表示驾驶人u在日期类型h

则日期类型h

其中m为驾驶人总数。

进一步的,在训练LDA模型时包括:

依据经验值设置参数

将得到的主题数K作为Gibbs采样的输入,同样根据困惑度值越小效果越好的原则确定最终的参数α值;

将K、α和β作为Gibbs采样的输入,将日期类型h

进一步的,所述基于文档-主题概率分布对每个日期类型下的驾驶人进行聚类,得到若干个驾驶人类群,每个类群表示具有某种相同出行模式的驾驶人集合,包括:

采用k-means算法进行聚类,使用簇内误差平方和SSE评估聚类性能,利用手肘法确定最优类别数。

进一步的,所述结合主题-词汇概率分布、驾驶人出行的时空特征以及聚类结果对出行模式进行挖掘,包括:

结合对各出行目的的描述以及聚类结果,对各个类群中的驾驶人的出行模式进行分析,得到不同日期类型下的每个类群的主要出行模式以及描述。

第二方面,提供了一种基于出行目的的驾驶人出行模式挖掘系统,所述系统包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。

(三)有益效果

本发明提供了一种基于出行目的的驾驶人出行模式挖掘方法和系统。与现有技术相比,具备以下有益效果:

本发明通过利用LDA语义模型识别私家车驾驶人的出行目的,同时利用驾驶人的出行目的来挖掘出行模式,并考虑了移动语义和位置语义两个方面的特征,根据驾驶人出行的时空特征能够识别出每一日期类型下驾驶人的出行目的,并能够得到每个驾驶人关于出行目的的概率分布;基于每个驾驶人关于出行目的的概率分布聚类驾驶人,得出每个日期类型下的驾驶人类群,基于出行目的能够得到驾驶人类群的出行模式,可以帮助企业了解这些需求,采取相应的策略响应驾驶人的需求,或者针对不同的类群制定不同的宣传策略。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例的流程图;

图2为本发明实施例的实例中的日期类型为h

图3为本发明实施例的实例中的日期类型为h

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例通过提供一种基于出行目的的驾驶人出行模式挖掘方法和系统,解决了目前的研究方法不能够很好的挖掘驾驶人的出行模式,存在识别出行模式不全面、可解释性不高的问题。

本发明实施例中的技术方案为解决上述技术问题,总体思路如下:

目前的方案没有考虑用户的出行目的,而出行模式是在出行目的基础上的一种出行行为的变化过程,出行目的决定了驾驶人的出行模式,是引起个体出行以及出行行为改变的内在原因。本发明通过将LDA语义模型应用到私家车驾驶人的出行目的识别上,并利用Gibbs采样训练LDA模型来确定LDA模型的参数值和主题数,同时利用驾驶人的出行目的来挖掘出行模式,并考虑了移动语义和位置语义两个方面的特征,根据驾驶人出行的时空特征能够识别出每一日期类型下驾驶人的出行目的,并能够得到每个驾驶人关于出行目的的概率分布;基于每个驾驶人关于出行目的的概率分布聚类驾驶人,得出每个日期类型下的驾驶人类群。每个类群都代表着具有某种出行目的的驾驶人集合。基于出行目的能够得到驾驶人类群的出行模式。

为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明中:

出行目的:驾驶人travel for what,上班,购物等。

出行模式:驾驶人how to travel,行为上的一些规律,反映长期以往的驾驶人的出行行为习惯。

实施例1:

如图1所示,本发明提供了一种基于出行目的的驾驶人出行模式挖掘方法,该方法包括:

获取不同驾驶人的出行片段;

基于日期类型划分规则对驾驶人的出行片段进行分类,并在每一个日期类型下对驾驶人的出行片段提取其时空特征;所述时空特征包括到达时间类型、停留时长类型以及到达点POI类型;

将每个日期类型下的每个驾驶人的所有出行时空特征作为一个文档,利用LDA模型识别每个日期类型下所有驾驶人的出行目的,得到用于表达出行目的与时空特征关系的主题-词汇概率分布和用于表达驾驶人与出行目的关系的文档-主题概率分布;并基于主题-词汇概率分布获取各个出行目的的描述;

基于文档-主题概率分布对每个日期类型下的驾驶人进行聚类,得到若干个驾驶人类群,每个类群表示具有某种相同出行模式的驾驶人集合;

结合出行目的的描述以及聚类结果对出行模式进行挖掘。

本实施例的有益效果为:

本发明通过利用LDA语义模型识别私家车驾驶人的出行目的,同时利用驾驶人的出行目的来挖掘出行模式,并考虑了移动语义和位置语义两个方面的特征,根据驾驶人出行的时空特征能够识别出每一日期类型下驾驶人的出行目的,并能够得到每个驾驶人关于出行目的的概率分布;基于每个驾驶人关于出行目的的概率分布聚类驾驶人,得出每个日期类型下的驾驶人类群,基于出行目的能够得到驾驶人类群的出行模式,可以帮助企业了解这些需求,采取相应的策略响应驾驶人的需求,或者针对不同的类群制定不同的宣传策略。

下面结合对华东地区371个驾驶人的出行模式挖掘实例,对本发明实施例的实现过程进行详细说明:

S1、获取不同驾驶人的出行片段。

具体实施时,由于车辆的行程数据在采集的过程中会出现错误、缺失以及重复等问题,因为需要将得到的车辆的行程数据进行预处理,即更正错误的数据,补全缺失的数据,删除重复的数据。

根据车辆行程数据的特点,采用发动机状态识别出行记录,利用停车时间来划分出行片段。例如,发动机状态开关一次之后作为一次出行记录T

S2、基于日期类型划分规则对驾驶人的出行片段进行分类,并在每一个日期类型下对驾驶人的出行片段提取其时空特征。

具体实施时,将日期类型划分为四个部分,H={h

将驾驶人的每个出行片段划分到相对应的日期类型下,在每一个日期类型下对每一个驾驶人的每段行程提取其时空特征。为了能够更好的识别用户出行目的,调用了高德地图的API接口识别每个出行片段到达点地理位置的POI类型。对每一个出行片段选取了三个时空特征:到达时间(at)、停留时长(sd)、到达点的POI类型(POI)。其中:

到达时间(at),at是指一段旅程结束时间的小时时刻,也就是一个出行片段的最后一条记录结束时间的小时时刻。

例如,结束的时间在5:00-5:59,那么该出行片段结束的小时时刻为5。到达时间能够很好反映驾驶人的出行目的得时间分布。为了让数据的呈现方式更具规律化,对到达时间进行区间划分。at={slot-1,slot-2,slot-3,slot-4,slot-5},其中slot-1代表的结束时间的小时时刻区间为[0,5],slot-2为[6,10],slot-3为[11,14],slot-4为[15,19],slot-5为[20,23]。

停留时长(sd),sd是指驾驶人在一段旅程结束之后,在该到达点停留了多久。在相同的地方停留的时长不同,反映出的驾驶人来到该点的目的不同,即驾驶人的出行目的是不同的。同样地对停留时长进行区间划分。

例如,sd={short-stay,mid-stay,long-stay,long-long-stay},其中short-stay指停留时长小于1小时,mid-stay指停留时长大于等于1小时并且小于3小时,long-stay指停留时长大于等于3小时并且小于8小时,long-stay指停留时长大于8小时。

到达点的POI类型(POI),

在高德地图将POI类型划分为23个大类的基础上,将POI重新划分为7类,POIall={POI

其中,POI

则一个出行片段的时空特征可以表示为ST=at+sd+POI。

举例说明:

在对华东地区371个驾驶人的出行模式挖掘的实例中,对驾驶人的车辆行程记录进行提取,提取日期在2020-04-010:00至2020-05-1023:59的数据记录。对每一个驾驶人的出行片段进行移动语义挖掘,同时调用高德地图API接口对位置语义挖掘。处理过后的出行片段的时空特征的数据格式样例如表1所示。表中的驾驶人ID表示驾驶人驾驶的车辆编号,具有唯一性。

表1

以驾驶人“driver_1”的一条出行片段经过提取后时空特征为“slot-2+mid-stay+POI

S3、将每个日期类型下的每个驾驶人的所有出行时空特征作为一个文档,并利用LDA主题模型得到文档对应的主题作为出行目的;并得到用于表达出行目的与时空特征关系的主题-词汇概率分布和用于表达驾驶人与出行目的关系的文档-主题概率分布,并基于主题-词汇概率分布获取各个出行目的的描述。

具体实施时,LDA主题模型识别出的主题就是驾驶人的出行目的。

h

其中,n表示驾驶人u在日期类型h

h

其中,m为驾驶人总数(文档总数)。

同时采用Gibbs采样的方法训练LDA模型,并确定LDA模型的参数α和β和最终的主题数K,具体过程如下:

1)首先依据经验值设置参数

2)因为参数β值对LDA模型结果的影响较小,所以固定β=0.01,将1)中得到的主题数K作为Gibbs采样的输入,同样根据困惑度值越小效果越好的原则确定最终的参数α值。

3)将最终的K,α和β=0.01作为Gibbs采样的输入,将h

举例说明:

在对华东地区371个驾驶人的出行模式挖掘的实例中,根据LDA主题模型的结果,驾驶人在各个h

表2

以h

表3

本实施例中,为每一个出行目的添加语义描述,可通过人工进行描述,也可通过预设算法来实现,例如如下步骤:

(1)将每个目的中的单词w

(2)计算单词w

a)若

b)若

例如从表3的出行目的1的主题-词汇概率分布中可以得到,概率最大的三个单词分别为

w

w

w

因为

同样,日期类型h

表4

同样的以h

表5

根据表5可以得知,driver_1的出行目的以出行目的3,4,6为主,属于中等停留时间的休闲出行或者不规律出行,再结合h

S4、基于文档-主题概率分布对每个日期类型下的驾驶人进行聚类,得到若干个驾驶人类群,每个类群表示具有某种相同出行模式的驾驶人集合。

具体实施时,根据得到的文档-主题概率分布在不同的h

使用簇内误差平方和SSE评估聚类性能,利用手肘法确定最优类别数。SSE的计算公式为:

SSE表示每个簇内的点到中心点的距离误差平方和;c

利用k-means对每个h

举例说明:

在对华东地区371个驾驶人的出行模式挖掘的实例中,根据文档-主题概率分布P{Topic|u}

表6

同样的以h

表7为h

表7

从图3我们可以看出cluster_0,cluster_1,cluster_3,cluster_4四个类群中的驾驶人主题-概率分布具有明显的出行目的特征。结合图3的各类群中的驾驶人-主题概率分布情况和表7中的聚类中心分布,可以得出:

cluster_0类群中的驾驶人出行目的主要是出行目的0,

cluster_1类群中的驾驶人出行目的主要是出行目的7,

cluster_3类群中的驾驶人出行目的主要是出行目的1,

cluster_4类群中的驾驶人出行目的主要是出行目的3。

cluster_2类群中出行目的的概率分布较为分散,其中出行目的2,4,5所占的比例较高,出行目的0,1,3,4,6,7的概率相比与出行目的2,4,5较低。

S5、结合出行目的的描述以及聚类结果对出行模式进行挖掘。

具体的:结合对各出行目的的描述以及聚类结果,对各个类群中的驾驶人的出行模式进行分析。即得出不同日期类型下的每个类群的主要出行模式。

举例说明:

本实施例中,为每一个出行模式添加语义描述,可通过人工进行描述,也可通过预设算法来实现,例如如下步骤:

(1)针对每一个类群的聚类中心,将其按照各出行目的所占比例从大到小的顺序排序,选择排序前三的出行目的TP

(2)计算出行目的TP

a)若

b)若

举例说明:

根据表7可知类群cluster_0的聚类中心排序前三的出行目的是TP

表8是h

表8

此外,根据LDA模型识别出行目的的结果,可以得到每个h

实施例2

本发明还提供了一种基于出行目的的驾驶人出行模式挖掘系统,所述系统包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。

可理解的是,本发明实施例提供的基于出行目的的驾驶人出行模式挖掘系统与上述基于出行目的的驾驶人出行模式挖掘方法相对应,其有关内容的解释、举例、有益效果等部分可以参考基于出行目的的驾驶人出行模式挖掘方法中的相应内容,此处不再赘述。

综上所述,与现有技术相比,本发明具备以下有益效果:

1、首次将LDA语义模型应用到私家车驾驶人的出行目的识别上,并利用Gibbs采样训练LDA模型以确定LDA模型的参数值和主题数。

2、首次利用驾驶人的出行目的来挖掘出行模式,并考虑了移动语义和位置语义两个方面的特征。

3、将日期划分为四种不同的类型,识别四种日期类型下的用户出行目的,与传统的平时和周末的日期类型划分不同。

4、不同驾驶人类群的出行模式能够体现出驾驶人对于产品和服务的不同需求,本发明可以帮助企业了解这些需求,采取相应的策略响应驾驶人的需求,或者针对不同的类群制定不同的宣传策略。

5、不同日期类型下的驾驶人出行模式可以辅助交通部门了解道路交通情况并采取不同的交通管控。

需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 基于出行目的的驾驶人出行模式挖掘方法和系统
  • 一种基于OBD数据的驾驶人出行模式识别方法
技术分类

06120114690547