导航：首页> 输送；包装；贮存；搬运薄的或细丝状材料>一种多源数据结构下优化交通事故数据的方法

一种多源数据结构下优化交通事故数据的方法

文献发布时间：2023-06-19 13:45:04

技术领域

本发明涉及一种多源数据结构下优化交通事故数据的方法，属于交通数据结构技术领域。

背景技术

近几年构建道路安全事故分析模型成为了交通安全领域的研究热点，然而模型的表现很大程度上依赖于交通事故数据结构的有效性。交通事故作为一种小概率事件，特别是严重性事故，经常会导致事故数据结构不平衡，即事故数据样本远远小于零事故样本(即零过多现象)。目前在科研领域与专利应用领域，大多数的研究都是基于传统的统计分析模型，如零膨胀泊松回归模型、自举重采样等。随着先进的数据挖掘技术发展，上采样与下采样技术开始用于数据结构平衡优化，如合成少数类过采样技术、生成式对抗网络等。

然而上述方法在生成新的数据集时往往赋予所有变量共同的似然函数，忽略了不同变量之间的异质性，从而影响了模型的拟合效果和安全因素的识别。因此，为保证数据生成的有效性，保证准确可靠的安全评估结果的获取，需要针对不同变量数据分别构建符合各自形态分布的似然函数，生成新的数据集，使得事故数据结构平衡。

发明内容

本发明所要解决的技术问题是：提供一种多源数据结构下优化交通事故数据的方法，能够大幅度减少不平衡交通事故数据结构对安全分析模型的影响，获得准确可靠的交通安全评价结果。

本发明为解决上述技术问题采用以下技术方案：

一种多源数据结构下优化交通事故数据的方法，包括如下步骤：

步骤1，采集多源交通数据，即获取多源交通安全影响因素数据；

步骤2，构建符合多源交通数据形态分布的生成模型，即为步骤1获取的各个影响因素构建分布形态函数；

步骤3，基于步骤2构建的生成模型对步骤1采集的多源交通数据进行增生优化处理，使得处理后的多源交通数据中事故样本的数量与零事故样本的数量比例为1:4。

作为本发明的进一步方案，所述优化交通事故数据的方法还包括步骤4，构建交通安全分析模型，并根据模型的拟合指标对增生优化结果进行验证。

作为本发明的优选方案，步骤1所述多源交通安全影响因素包括：路段年交通事故总数量N、路段长度L、路段日平均交通量Q、路段平均车速V、路段的交通节点密度S、道路等级A、道路路幅宽度W、道路车道数K以及有无公交车道B。

作为本发明的优选方案，所述步骤2的具体过程如下：

将多源交通安全影响因素划分为计数变量、实值变量、分类变量和有序变量；

所述计数变量包括路段年交通事故总数量N，构建路段年交通事故总数量的分布形态函数如式(1)：

其中，p(N＝G)表示路段产生G起事故的概率，λ表示单位时间或者单位面积内事故发生的平均次数，G为自然数；

所述实值变量包括路段长度L、路段日平均交通量Q、路段的交通节点密度S以及道路路幅宽度W，构建实值变量的分布形态函数如式(2)：

其中，Z表示实值变量，p(Z＝J)表示实值变量取值J的概率，

所述分类变量包括道路等级A、道路车道数K以及有无公交车道B，构建分类变量的分布形态函数如式(3)：

其中，H表示分类变量，p(H＝C)表示分类变量取值C的概率，π

所述有序变量包括路段平均车速V，构建路段平均车速的分布形态函数如式(4)和(5)：

p(V＝R)＝p(V≤R)-p(V≤R-1) (4)

其中，p(V＝R)表示平均车速取值R的概率，p(V≤R)表示平均车速取值小于等于R的概率，p(V≤R-1)表示平均车速取值小于等于R-1的概率，R为自然数，ω

作为本发明的优选方案，所述交通安全分析模型如式(6)和(7)：

Ln(N)＝θ+θ

AIC＝-2 ln(Y)+2T，BIC＝ln(n)T-21n(Y) (7)

其中，N表示路段年交通事故总数量，L表示路段长度，Q表示路段日平均交通量，V表示路段平均车速，S表示路段的交通节点密度，A表示道路等级，W表示道路路幅宽度，K表示道路车道数，B表示有无公交车道，θ、θ

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、本发明提出一种多源数据结构下优化交通事故数据的方法，分别确定每一种交通数据类型的分布形态，基于数据分布形态构建事故数据生成模型，并基于道路安全分析模型对优化后的数据集进行验证与评价，大幅度减少了不平衡交通事故数据结构对安全分析模型的影响，使得交通安全评价结果更加准确可靠。

2、本发明针对不同变量数据，构建符合各自分布的似然函数，从而保证了数据生成的有效性，保证了准确可靠的安全评估结果的获取。

附图说明

图1是本发明一种多源数据结构下优化交通事故数据的方法的流程图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

如图1所示，本发明提出的一种多源数据结构下优化交通事故数据的方法，包括以下步骤：

步骤1、多源交通数据采集，通过实地调查与相关部交通部门的调研，分别获取以下多源交通安全影响因素：路段年交通事故总数量N、路段长度L、路段日平均交通量Q、路段平均车速V、路段的交通节点密度S、道路等级A、道路路幅宽度W、道路车道数K以及有无公交车道B；

步骤2、构建符合多源数据形态分布的生成模型，分别为步骤1中的各因素构建适合的分布形态函数具体如下：

计数变量(年交通事故总数量N)，如式(1)：

其中，p(N＝G)表示路段产生G起事故的概率，λ表示单位时间或者单位面积内事故发生的平均次数。

实值变量(路段长度L、道路路幅宽度W、路段的交通节点密度S、路段日交通平均交通量Q)，如式(2)：

其中，Z表示本次发明中的实值变量，p(Z＝J)表示变量取值J的概率，

分类变量(道路等级A、有无公交车道B、道路车道数K)，如式(3)：

其中，H表示本次发明中的分类变量，p(H＝C)表示变量取值C的概率，π

有序变量(路段平均车速V)，如式(4)和(5)：

p(V＝R)＝p(V≤R)-p(V≤R-1) (4)

其中，p(V＝R)表示平均车速取值R的概率，p(V≤R)表示平均车速取值小于等于R的概率，p(V≤R-1)表示平均车速取值小于等于R-1的概率，R为自然数，ω

步骤3、平衡交通事故数据结构，基于步骤2中各变量的增生处理，结合原始观测数据平衡交通事故数据结构，推荐事故样本(N不等于0)与零事故样本(N等于0)比例为1∶4；

步骤4、优化数据的验证与评价，为验证优化平衡后的交通事故数据结构，构建交通安全分析模型，并根据模型的拟合指标(AIC、BIC)评价数据优化结果，如式(6)和(7)：

Ln(N)＝θ+θ

AIC＝-2 ln(Y)+2T，BIC＝ln(n)T-2ln(Y) (7)

其中，Y表示最大似然值，T表示参数数量(本发明为9)，n为观测样本数量。

下面用具体实施例来说明本发明。

1)多源交通数据采集：通过准确的调查方法以及相关部门调研对多源数据进行采集，假设n

表1样本数据采集统计表

2)对事故样本数据进行增生：根据文献查询事故样本比例与零事故样本比例为1∶4时可以保证安全分析模型的有效性与变量的解释性，因此通过本发明步骤2中符合各变量形态分布的生成模型对事故样本进行增生，使分析数据中非零事故样本与零事故样本比例为1∶4。

3)构建安全分析模型：分别根据原始与增生优化后的交通事故数据构建安全分析模型，模型如下：

基于原始交通事故数据的安全分析模型(比例为1∶9)

Ln(N

AIC

基于增生优化后的交通事故数据的安全分析模型(比例为1∶4)

Ln(N

AIC

4)优化数据的验证与评价，由于本次案例是在假设数据下进行的，因此如果AIC

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：郭延永;刘攀;丁红亮;马景峰;李清韵;
专利申请人：东南大学;

上一篇：一种面粉成型加工及包装一体化设备
下一篇：一种新能源汽车充电用耐低温耐弯折的电缆