掌桥专利:专业的专利平台
掌桥专利
首页

车联网数据质量确定方法、装置、计算机设备和存储介质

文献发布时间:2023-06-19 12:00:51


车联网数据质量确定方法、装置、计算机设备和存储介质

技术领域

本申请涉及车联网技术领域,特别是涉及一种车联网数据质量确定方法、装置、计算机设备和存储介质。

背景技术

随着车联网技术的发展,出现了大量车辆行驶相关的动态数据以及车辆配置相关的静态数据。海量的数据中隐藏着应用价值,可以采用数据挖掘技术从大量的数据中通过算法搜索隐藏于其中的价值信息。但是数据挖掘之前,需要先评价数据质量,保证挖掘数据的准确性。

传统技术中,先分别对各种评价指标进行量化,再根据各种评价指标量化后的数值得到数量质量的整体评价。

然而,目前的传统方法采用固定模式,灵活度差,无法针对实际需求提供精准的评价结果。

发明内容

基于此,有必要针对上述技术问题,提供一种能够提供适应实际需求的精准评价结果的车联网数据质量确定方法、装置、计算机设备和存储介质。

一种车联网数据质量确定方法,所述方法包括:

确定数据筛选条件和多个质量评价指标的权重,所述多个质量评价指标包括准确性、完整性和时效性;

获取满足所述数据筛选条件的车联网数据,所述车联网数据包括在不同时刻采集的至少一种类型数据;

基于每一种类型数据确定每个所述质量评价指标未达标的异常数据;

基于每一种类型数据、每个所述质量评价指标未达标的异常数据和所述多个质量评价指标的权重,确定每一种类型数据的质量等级。

在其中一个实施例中,基于每一种类型数据确定准确性未达标的异常数据,包括:

确定每一种类型数据是否满足正态分布;

若目标类型数据满足正态分布,则分别采用拉依达准则和高斯核函数在所述目标类型数据中识别异常数据,并将采用拉依达准则识别的异常数据和采用高斯核函数识别的异常数据的并集,作为所述目标类型数据中准确性未达标的异常数据;

若目标类型数据不满足正态分布,则采用高斯核函数在所述目标类型数据中识别异常数据,并将采用高斯核函数识别的异常数据,作为所述目标类型数据中准确性未达标的异常数据;

其中,所述目标类型数据为所述车联网数据中的任意一种类型数据。

在其中一个实施例中,采用拉依达准则在所述目标类型数据中识别异常数据,包括:

确定所述目标类型数据的平均值和标准偏差;

确定所述目标类型数据中各个时刻采集数据和所述平均值的差值的绝对值;

若目标时刻采集数据和所述平均值的差值大于所述标准偏差的三倍,则确定所述目标时刻采集数据为异常数据;

若目标时刻采集数据和所述平均值的差值小于等于所述标准偏差的三倍,则确定所述目标时刻采集数据为正常数据;

其中,所述目标时刻采集数据为在任意时刻采集的目标类型数据。

在其中一个实施例中,采用高斯核函数在所述目标类型数据中识别异常数据,包括:

将所述目标类型数据中各个时刻采集数据作为高斯核函数的核函数中心,得到所述各个时刻采集数据对应的概率密度函数;

将所述各个时刻采集数据对应的概率密度函数相加,得到所述目标类型数据的概率密度函数;

若基于所述目标类型数据的概率密度函数得到目标时刻采集数据的出现概率小于概率阈值,则确定所述目标时刻采集数据为异常数据;

若基于所述目标类型数据的概率密度函数得到目标时刻采集数据的出现概率大于等于概率阈值,则确定所述目标时刻采集数据为正常数据;

其中,所述目标时刻采集数据为在任意时刻采集的目标类型数据。

在其中一个实施例中,基于每一种类型数据确定完整性未达标的异常数据,包括:

确定每一种类型数据中缺失数据的采集时刻;

基于每一种类型数据中缺失数据的采集时刻,统计多种数据缺失情况的缺失数据数量,作为完整性未达标的异常数据,所述多种数据缺失情况包括单独缺失、连续缺失少量数据、连续缺失大量数据。

在其中一个实施例中,所述基于每一种类型数据、每个所述质量评价指标未达标的异常数据和所述多个质量评价指标的权重,确定每一种类型数据的质量等级,包括:

采用如下公式确定目标类型数据的质量评价结果:

q=w

其中,q为目标类型数据的质量评价结果,w

q

若所述目标类型数据的质量评价结果大于质量阈值,则确定所述目标类型数据的质量等级达标;

若所述目标类型数据的质量评价结果小于等于质量阈值,则确定所述目标类型数据的质量等级未达标;

其中,所述目标类型数据为所述车联网数据中的任意一种类型数据。

在其中一个实施例中,所述方法还包括:

若目标类型数据的质量等级达标,则对所述目标类型数据进行数据挖掘,所述目标类型数据为所述车联网数据中的任意一种类型数据。

一种车联网数据质量确定装置,所述装置包括:

交互模块,用于确定数据筛选条件和多个质量评价指标的权重,所述多个质量评价指标包括准确性、完整性和时效性;

调度模块,用于获取满足所述数据筛选条件的车联网数据,所述车联网数据包括在不同时刻采集的至少一种类型数据;

识别模块,用于基于每一种类型数据确定每个所述质量评价指标未达标的异常数据;

确定模块,用于基于每一种类型数据、每个所述质量评价指标未达标的异常数据和所述多个质量评价指标的权重,确定每一种类型数据的质量等级。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

确定数据筛选条件和多个质量评价指标的权重,所述多个质量评价指标包括准确性、完整性和时效性;

获取满足所述数据筛选条件的车联网数据,所述车联网数据包括在不同时刻采集的至少一种类型数据;

基于每一种类型数据确定每个所述质量评价指标未达标的异常数据;

基于每一种类型数据、每个所述质量评价指标未达标的异常数据和所述多个质量评价指标的权重,确定每一种类型数据的质量等级。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

确定数据筛选条件和多个质量评价指标的权重,所述多个质量评价指标包括准确性、完整性和时效性;

获取满足所述数据筛选条件的车联网数据,所述车联网数据包括在不同时刻采集的至少一种类型数据;

基于每一种类型数据确定每个所述质量评价指标未达标的异常数据;

基于每一种类型数据、每个所述质量评价指标未达标的异常数据和所述多个质量评价指标的权重,确定每一种类型数据的质量等级。

上述车联网数据质量确定方法、装置、计算机设备和存储介质,通过确定数据筛选条件,并获取满足数据筛选条件的车联网数据,可以利用数据筛选条件对车联网数据进行筛选,只有满足数据筛选条件的车联网数据才进行后续处理。这样,可以针对数据挖掘所关注的部分数据进行质量评估,从而提高质量评估结果的精准度,同时减少数据处理量,提高质量评估的速度。获取的车联网数据包括在不同时刻采集的至少一种类型数据,通过基于每一种类型数据确定每个质量评价指标未达标的异常数据,可以针对不同类型数据和不同质量评价指标分别进行处理,有利于提高质量评估结果的精准度。而且通过确定包括准确性、完整性和时效性的多个质量评价指标的权重,并基于每一种类型数据、每个质量评价指标未达标的异常数据和多个质量评价指标的权重,确定每一种类型数据的质量等级,可以利用权重的分配调整各种质量评价指标未达标的异常数据对数据质量等级的影响大小。这样,可以针对实际需求选取质量评价指标并设定其重要程度,得到适应实际需求的精准评价结果。

附图说明

图1为一个实施例中车联网数据质量确定方法的流程示意图;

图2为另一个实施例中车联网数据质量确定方法的流程示意图;

图3为一个实施例中车联网数据质量确定装置的结构框图;

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

在一个实施例中,提供了一种车联网数据质量确定方法。本实施例以该方法应用于终端为例进行说明。可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。其中,终端通过网络与服务器进行通信。

其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本实施例中,如图1所示,该方法包括以下步骤:

步骤S102,确定数据筛选条件和多个质量评价指标的权重。

其中,质量评价指标为评价互联网数据的质量等级的标准类型。在本实施例中,多个质量评价指标包括准确性、完整性和时效性。准确性是车联网数据接近真实值的程度,包括数据范围是否符合业务规范和客观事实、是否能够有效反映实际情况等。完整性是车联网数据的缺失程度,包括一个时刻的数据缺失和一段时间的数据缺失等。时效性是车联网数据的实际采样频率满足数据挖掘所需频率的程度。

权重是质量评价指标相对于车联网数据质量的重要程度。权重越大,表示质量评价指标对车联网数据质量的影响越大。如果权重为0,则表示质量评价指标对车联网数据质量没有影响,评价车联网数据质量时不考虑这个质量评价指标。在本实施例中,多个质量评价指标的权重之和为1。

数据筛选条件为车联网数据的选取要求。车联网数据为车联网上传输的数据,可以包括车载上的车载设备通过无线通信技术在信息网络平台中传输的所有车辆信息。

示例性地,数据筛选条件包括VIN(Vehicle Identification Number,车辆识别号码)和车联网数据的采集时间。

其中,VIN是一组由十七个字母或数字组成、用于汽车上的一组独一无二的号码,可以识别汽车的生产上、引擎、底盘序号及其他性能等。例如,第一位为生产国别代码,第二位为生产厂家代码,第九位为VIN检验数代码,第十位为车型年款代码,第十一位为总装工厂代码,第十二位为出厂顺序代码。通过限定VIN中不同位置的代码,可以筛选出特定车辆上的车联网数据。

举例来说,数据筛选条件包括VIN的前三位为LFV、以及车联网数据的采集时间是从A时刻到B时刻,则只会选取VIN的前三位是LFV、并且采集时间是在A时刻到B时刻之间的车联网数据,VIN的前三位不是LFV的车联网数据、采集时间在A时刻之前的车辆信息和采集时间在B时刻之后的车联网数据都不要。

本实施例中,通过确定数据筛选条件,可以基于数据筛选条件选取数据挖掘的关注数据进行质量评估。而确定多个质量评价指标的权重,可以通过分配各个质量评价指标的权重,满足数据挖掘对数据质量的不同要求。综上,确定数据筛选条件和多个质量评价指标的权重,可以根据数据挖掘的实际需求进行适应性调整,得到精准的质量评估结果。

步骤S104,获取满足数据筛选条件的车联网数据,车联网数据包括在不同时刻采集的至少一种类型数据。

其中,车联网数据包括VIN、发动机转速、车辆行驶速度、车辆行驶里程、车辆百公里油耗、发动机机油压力、发动机冷却水温、GPS(Global Positioning System,全球定位系统)时间、GPS纬度、GPS经度、GPS高程、GPS方向、GPS速度和故障信息中的至少一种。

本实施例中,通过获取满足数据筛选条件的车联网数据,可以从海量的车联网数据中筛选出数据挖掘的关注数据进行质量评估,既能提高数据质量评估的准确度,也能减少数据处理量,加快数据质量评估的速度。而车联网数据包括在不同时刻采集的至少一种类型数据,可以针对每一种类型数据分别进行质量评估,针对性强,准确度高。

步骤S106,基于每一种类型数据确定每个质量评价指标未达标的异常数据。

其中,质量评价指标未达标的异常数据是指,任意一种类型数据中不符合质量评价指标的数据。例如,在同一种类型数据中,正常范围外的数据为准确性未达标的异常数据,缺失的数据为完整性未达标的数据,采用频率小于要求频率的数据为时效性未达标的数据。

基于每一种类型数据确定每个质量评价指标未达标的异常数据是指,针对每一种类型数据,都分别确定每个质量评价指标未达标的异常数据。

例如,车联网数据包括发动机转速和车辆行驶速度,质量评价指标包括准确性、完整性和时效性,则基于在不同时刻采集的发动机转速确定准确性未达标的异常数据、基于在不同时刻采集的发动机转速确定完整性未达标的异常数据、基于在不同时刻采集的发动机转速确定时效性未达标的异常数据、基于在不同时刻采集的车辆行驶速度确定准确性未达标的异常数据、基于在不同时刻采集的车辆行驶速度确定完整性未达标的异常数据、以及基于在不同时刻采集的车辆行驶速度确定时效性未达标的异常数据。

本实施例中,通过基于每一种类型数据确定每个质量评价指标未达标的异常数据,可以针对每一种类型数据的特点,分别进行质量评估,提高质量评估结果的准确度。而且对于每一种类型数据,可以综合每个质量评价指标的评估结果,并不是简单的异常数据筛查,而是从多个方面评估数据质量,提高质量评估结果的准确度。

示例性地,终端可以为每一种类型数据单独开启一个线程,不同类型数据同时进行处理,提高数据质量评估的速度。

步骤S108,基于每一种类型数据、每个质量评价指标未达标的异常数据和多个质量评价指标的权重,确定每一种类型数据的质量等级。

其中,一种类型数据的质量等级为这种类型数据适合数据挖掘的程度表示。具体地,若一种类型数据的质量等级为达标,则表示这种类型数据适合数据挖掘;若一种类型数据的质量等级为未达标,则表示这种类型数据不适合数据挖掘。

基于每一种类型数据、每个质量评价指标未达标的异常数据和多个质量评价指标的权重,确定每一种类型数据的质量等级是指,针对每一种类型数据,都分别确定基于这种类型数据、每个质量评价指标未达标的异常数据和多个质量评价指标的权重确定质量等级。

例如,车联网数据包括发动机转速和车辆行驶速度,质量评价指标包括准确性、完整性和时效性,则基于在不同时刻采集的发动机转速、发动机转速中准确性未达标的异常数据、发动机转速中完整性未达标的异常数据、发动机转速中时效性未达标的异常数据、准确性的权重、完整性的权重和时效性的权重,确定发动机转速的质量等级;基于在不同时刻采集的车辆行驶速度、车辆行驶速度中准确性未达标的异常数据、车辆行驶速度中完整性未达标的异常数据、车辆行驶速度中时效性未达标的异常数据准确性的权重、完整性的权重和时效性的权重,确定车辆行驶速度的质量等级。

本实施例中,通过基于每一种类型数据、每个质量评价指标未达标的异常数据和多个质量评价指标的权重,确定每一种类型数据的质量等级,可以针对每一种类型数据的特点,分别进行质量评估,提高质量评估结果的准确度。而且对于每一种类型数据,可以综合每个质量评价指标的评估结果,从多个方面评估数据质量,提高质量评估结果的准确度。

上述车联网数据质量确定方法中,通过确定数据筛选条件,并获取满足数据筛选条件的车联网数据,可以利用数据筛选条件对车联网数据进行筛选,只有满足数据筛选条件的车联网数据才进行后续处理。这样,可以针对数据挖掘所关注的部分数据进行质量评估,从而提高质量评估结果的精准度,同时减少数据处理量,提高质量评估的速度。获取的车联网数据包括在不同时刻采集的至少一种类型数据,通过基于每一种类型数据确定每个质量评价指标未达标的异常数据,可以针对不同类型数据和不同质量评价指标分别进行处理,有利于提高质量评估结果的精准度。而且通过确定包括准确性、完整性和时效性的多个质量评价指标的权重,并基于每一种类型数据、每个质量评价指标未达标的异常数据和多个质量评价指标的权重,确定每一种类型数据的质量等级,可以利用权重的分配调整各种质量评价指标未达标的异常数据对数据质量等级的影响大小。这样,可以针对实际需求选取质量评价指标并设定其重要程度,得到适应实际需求的精准评价结果。

在一个实施例中,如图2所示,该方法包括以下步骤:

步骤S202,确定数据筛选条件和多个质量评价指标的权重,多个质量评价指标包括准确性、完整性和时效性。

具体地,该步骤S202包括:接收用户输入的数据筛选条件和多个质量评价指标的权重。

可选地,终端配有输入设备和输出设备。输出设备向用户显示数据筛选条件的类型及其对应的输入框,用户通过输入设备在输入框中填写数据筛选条件,终端即可接收到的内容与对应的数据筛选条件的类型结合,得到数据筛选条件。例如,用户在VIN的前三位对应的输入框填写“LFV”,则终端将“LFV”与VIN的前三位结合,得到数据筛选条件包括VIN的前三位为LFV。又如,用户在数据开始时间对应的输入框填写“A”,数据结束时间对应的输入框填写“B”,则终端将“A”、“B”与车联网数据的采集时间结合,得到数据筛选条件包括采集时间从A时刻到B时刻。

输出设备还向用户显示多种质量评价指标及其权重的输入框,用户通过输入设备在输入框中填写权重,终端即将对应的质量评价指标纳入车联网数据的质量评价中。在用户确认已填写的质量评价指标之后,终端会确定已填写的权重之和是否为1。若已填写的权重之和为1,则终端按照已填写的权重进行后续处理。若已填写的权重之和小于1,则输出设备向用户显示是否选择加上未填写权重的质量评价指标的确认窗口;若用户通过输入设备选择加上未填写权重的质量评价指标,则终端根据已填写的权重确定未填写的权重;若用户通过输入设备选择不加未填写权重的质量评价指标,则输出设备向用户显示权重设置错误的提示窗口。若已填写的权重之和大于1,则输出设备向用户显示权重设置错误的提示窗口。例如,用户通过输入设备在准确性的权重输入框中输入50%,在完整性的权重输入框中输入40%,并提交给终端。终端将准确性和完整性纳入车联网数据的质量评价中,并确定已填写的权重之和小于1,通过输出设备向用户显示是否选择加上时效性的确认窗口。如果用户通过输入设备选择加上时效性,则终端自动将时效性的权重设置为1-50%-40%=10%;如果用户通过输入设备选择不加上时效性,则终端通过输出设备显示权重设置错误的提示窗口。

输出设备也可以先向用户显示多种质量评价指标的选择框,用户通过输入设备选择一种质量评价指标之后,输出设备再向用户显示这种质量评价指标的权重输入框。在用户确认已填写的质量评价指标之后,终端会确定已填写的权重之和是否为1。若已填写的权重之和为1,则终端按照已填写的权重进行后续处理。若已填写的权重之和小于1且选择的一种质量评价指标的权重输入框为空,则终端根据已填写的权重确定未填写的权重。若已填写的权重之和小于1且选择的所有质量评价指标的权重输入框均已填写,或者已填写的权重之和小于1且选择的至少两种质量评价指标的权重输入框为空,或者已填写的权重之和大于1,则输出设备向用户显示权重设置错误的提示窗口。例如,用户通过输入设备选择准确性、完整性和时效性之后,输出设备分别显示准确性、完整性和时效性的权重输入框。

示例性地,可以默认选择所有的质量评价指标,并默认设有权重值,方便用户使用。例如,准确性的权重默认为50%,完整性的权重默认为40%,时效性的权重默认为10%。如果用户通过输入设备在准确性的权重输入框中输入50%,在完整性的权重输入框中输入40%,并提交给终端,则终端自动将时效性的权重设置为1-50%-40%=10%。

在本实施例中,通过输入设备和输出设备配合,与用户进行交互,方便用户输入数据筛选条件和多个质量评价指标的权重。

示例性地,准确度的权重范围为40%~50%,完整性的权重范围为30%~40%,时效性的权重范围为10%~30%。终端可以通过输出设备显示给用户,可以为用户提供参考,方便用户进行权重的设定。

示例性地,可以采用vue、echarts、Bootstrap、Element中的一种架构实现交互。

在实际应用中,用户可以通过登录web客户端输入数据筛选条件和多个质量评价指标的权重,方便数据筛选条件和多个质量评价指标的权重的设定。

步骤S204,获取满足数据筛选条件的车联网数据,车联网数据包括在不同时刻采集的至少一种类型数据。

在一种实现方式中,该步骤S204:向车联网数据的存储设备发送包括数据筛选条件的数据获取请求;接收车联网数据的存储设备发送的车联网数据,并保存在结构化数据库中。

在另一种实现方式中,该步骤S204:接收车联网数据的存储设备发送的车联网数据;若接收的车联网数据满足数据筛选条件,则将接收的车联网数据保存在结构化数据库中;若接收的车联网数据不满足数据筛选条件,则接收的车联网数据删除。

本实施例中,通过结构化数据库保存满足数据筛选条件的车联网数据,可以对车联网数据按照类型进行存放,方便后续同时调用在不同时刻采集的同一种类型数据。

示例性地,结构化数据库为MySQL、MongoDB、HDFS(Hadoop Distributed FileSystem,分布式文件系统)中的一种。

示例性地,车联网数据的存储设备为hive(数据仓库工具)。

步骤S206,若准确性的权重大于0,则基于每一种类型数据确定准确性未达标的异常数据。

其中,准确性未达标的异常数据主要是偏离主要分布范围太远的数据。

可选地,该步骤S206包括:确定每一种类型数据是否满足正态分布;若目标类型数据满足正态分布,则分别采用拉依达准则和高斯核函数在目标类型数据中识别异常数据,并将采用拉依达准则识别的异常数据和采用高斯核函数识别的异常数据的并集,作为目标类型数据中准确性未达标的异常数据;若目标类型数据不满足正态分布,则采用高斯核函数在目标类型数据中识别异常数据,并将采用高斯核函数识别的异常数据,作为目标类型数据中准确性未达标的异常数据。

其中,目标类型数据为车联网数据中的任意一种类型数据。

本实施例中,先确定同一种类型数据是否满足正态分布,可以了解这种类型数据是否适合采用拉依达准则识别异常数据。如果这种类型数据满足正态分布,则说明这种类型数据可以采用拉依达准则识别异常数据,此时分别采用拉依达准则和高斯核函数识别异常数据,并取两者的并集作为这种类型数据中准确性未达标的异常数据,可以利用两种异常数据识别方式有效识别出准确性未达标的异常数据,提高异常数据确定的准确度,最终提高质量评估的准确度。如果这种类型数据不满足正态分布,则说明这种类型数据不适合采用拉依达准则识别异常数据,此时只采用高斯核函数识别异常数据,并作为这种类型数据中准确性未达标的异常数据,也可以保证异常数据识别的准确度。

具体地,确定每一种类型数据是否满足正态分布,可以包括:对每一种类型数据分别采用K-S(Kolmogorov-Smirnov)检验技术确定是否满足正态分布。

具体地,采用拉依达准则在目标类型数据中识别异常数据,包括:确定目标类型数据的平均值和标准偏差;确定目标类型数据中各个时刻采集数据和平均值的差值的绝对值;若目标时刻采集数据和平均值的差值大于标准偏差的三倍,则确定目标时刻采集数据为异常数据;若目标时刻采集数据和平均值的差值小于等于标准偏差的三倍,则确定目标时刻采集数据为正常数据。

其中,目标时刻采集数据为在任意时刻采集的目标类型数据。

本实施例中,先基于目标类型数据,可以计算得到目标类型数据的平均值和标准偏差,进而计算得到目标类型数据的平均值和标准偏差。由于目标类型函数满足正态分布,因此将与平均值的差值是否大于标准偏差的三倍的数据作为异常数据的判断标准,符合实际情况,可以准确识别出异常数据。

例如,在不同时刻采集的同一种类型数据依次为x1、x2、x3、……、xn,则这种类型数据的平均值为

具体地,采用高斯核函数在目标类型数据中识别异常数据,包括:将目标类型数据中各个时刻采集数据作为高斯核函数的核函数中心,得到各个时刻采集数据对应的概率密度函数;将各个时刻采集数据对应的概率密度函数相加,得到目标类型数据的概率密度函数;若基于目标类型数据的概率密度函数得到目标时刻采集数据的出现概率小于概率阈值,则确定目标时刻采集数据为异常数据;若基于目标类型数据的概率密度函数得到目标时刻采集数据的出现概率大于等于概率阈值,则确定目标时刻采集数据为正常数据。

其中,目标时刻采集数据为在任意时刻采集的目标类型数据。

本实施例中,利用已出现数据及其周围数据的出现概率较大,将同一种类型数据中各个时刻采集数据分别作为高斯核函数的核函数中心,得到各个时刻采集数据对应的概率密度函数,并将所有的概率密度函数相加,可以得到这种类型数据的概率密度函数。将各个时刻采集数据对应的出现概率是否小于概率阈值作为异常数据的判断标准,符合实际情况,可以准确识别出异常数据。

例如,在不同时刻采集的同一种类型数据依次为x1、x2、x3、……、xn,则将x1、x2、x3、……、xn分别作为xc代入高斯核函数得到对应的概率密度函数K(x,x

步骤S208,若完整性的权重大于0,则基于每一种类型数据确定完整性未达标的异常数据。

其中,完整性未达标的异常数据主要是缺失的数据。

在实际应用中,如果未接收到某个时刻的数据,则这个时刻的数据缺失。例如,在各个时刻采集的同一种类型数据依次为30、20、空白、15,则第三个时刻的数据缺失。

可选地,该步骤S208包括:确定每一种类型数据中缺失数据的采集时刻;基于每一种类型数据中缺失数据的采集时刻,统计多种数据缺失情况的缺失数据数量,作为完整性未达标的异常数据,多种数据缺失情况包括单独缺失、连续缺失少量数据、连续缺失大量数据。

本实施例中,将数据缺失情况划分为单独缺失、连续缺失少量数据、连续缺失大量数据三种,并针对每种数据缺失情况分别统计缺失数据数量,可以结合不同数据缺失情况对数据质量的影响大小,对数据的完整性进行准确评估。

示例性地,单独缺失为前后均未缺失的缺失数据。例如,在各个时刻采集的同一种类型数据依次为30、20、空白、15,则第三个时刻的缺失数据属于单独缺失。

连续缺失少量数据为前后至少有一个缺失数据且持续数量小于数量阈值的数据。例如,在各个时刻采集的同一种类型数据依次为30、空白、空白、15,则第二个时刻至第三个时刻的缺失数据属于连续缺失少量数据。

连续缺失大量数据为前后至少有一个缺失数据且持续数量大于等于数量阈值的数据。例如,在各个时刻采集的同一种类型的数据依次为30、空白、空白、空白、空白、空白、空白、15,则第二个时刻至第七个时刻的缺失数据属于连续缺失大量数据。

步骤S210,若时效性的权重大于0,则基于每一种类型数据确定时效性未达标的异常数据。

其中,时效性未达标的异常数据主要是采集间隔大于要求间隔的数据。

具体地,该步骤S200包括:若相邻两个时刻采集数据的间隔大于要求间隔,则确定两个数据为异常数据。

在实际应用中,各个时刻采集的数据都有对应的时间戳,可以根据相邻两个时刻采集数据的时间戳得到相邻两个时刻采集数据的间隔。例如,前一个时刻采集数据的时间戳为2020年12月18日16时32分05秒,下一个时刻采集数据的时间戳为2020年12月18日16时32分15秒,则这两个时刻采集数据的间隔为10s。如果这两个时刻采集数据属于压力类数据,压力类数据的要求间隔为1s(压力类数据的变化速度较快),则这两个时刻采集数据为异常数据。如果这两个时刻采集数据属于温度类数据,温度类数据的要求间隔为10s(温度类数据的变化速度较慢),则这两个时刻采集数据为正常数据。

步骤S212,基于每一种类型数据、每个质量评价指标未达标的异常数据和多个质量评价指标的权重,确定每一种类型数据的质量等级。

可选地,该步骤S212包括:采用如下公式确定目标类型数据的质量评价结果:q=w

其中,q为目标类型数据的质量评价结果,w

q

其中,目标类型数据为车联网数据中的任意一种类型数据。

本实施例中,设置有两级权重,第一级权重可以调整各个质量评价指标的影响大小,适应不同的数据挖掘需要;第二级权重可以调整各种数据缺失情况的影响的大小,对数据的完整性进行准确评估。

示例性地,W

缺失数据持续时间越长,可恢复几率越低,对数据挖掘的影响程度越大。因此,缺失数据的持续数量与对应权重正相关,可以较好体现数据完整性对数据质量的影响,最终准确评估数据质量。

示例性地,质量阈值为95%。

可选地,该方法还包括:输出每一种类型数据的质量等级。

在实际应用中,终端可以通过web客户端向用户反馈每一种类型数据的质量等级,回应用户输入的数据筛选条件和多个质量评估指标的权重。

步骤S214,若目标类型数据的质量等级达标,则对目标类型数据进行数据挖掘,目标类型数据为车联网数据中的任意一种类型数据。

本实施例中,对质量等级达标的数据进行数据挖掘,以保证数据挖掘的准确性。

应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图3所示,提供了一种车联网数据质量确定装置,包括:交互模块301、调度模块302、识别模块303和确定模块304,其中:

交互模块301,用于确定数据筛选条件和多个质量评价指标的权重,多个质量评价指标包括准确性、完整性和时效性。

调度模块302,用于获取满足数据筛选条件的车联网数据,车联网数据包括在不同时刻采集的至少一种类型数据。

识别模块303,用于基于每一种类型数据确定每个质量评价指标未达标的异常数据。

确定模块304,用于基于每一种类型数据、每个质量评价指标未达标的异常数据和多个质量评价指标的权重,确定每一种类型数据的质量等级。

上述车联网数据质量确定装置,通过确定数据筛选条件,并获取满足数据筛选条件的车联网数据,可以利用数据筛选条件对车联网数据进行筛选,只有满足数据筛选条件的车联网数据才进行后续处理。这样,可以针对数据挖掘所关注的部分数据进行质量评估,从而提高质量评估结果的精准度,同时减少数据处理量,提高质量评估的速度。获取的车联网数据包括在不同时刻采集的至少一种类型数据,通过基于每一种类型数据确定每个质量评价指标未达标的异常数据,可以针对不同类型数据和不同质量评价指标分别进行处理,有利于提高质量评估结果的精准度。而且通过确定包括准确性、完整性和时效性的多个质量评价指标的权重,并基于每一种类型数据、每个质量评价指标未达标的异常数据和多个质量评价指标的权重,确定每一种类型数据的质量等级,可以利用权重的分配调整各种质量评价指标未达标的异常数据对数据质量等级的影响大小。这样,可以针对实际需求选取质量评价指标并设定其重要程度,得到适应实际需求的精准评价结果。

在一个实施例中,识别模块303包括:分布确定单元、第一异常数据确定单元和第二异常数据确定单元,其中:

分布确定单元,用于确定每一种类型数据是否满足正态分布。

第一异常数据确定单元,用于当目标类型数据满足正态分布时,分别采用拉依达准则和高斯核函数在目标类型数据中识别异常数据,并将采用拉依达准则识别的异常数据和采用高斯核函数识别的异常数据的并集,作为目标类型数据中准确性未达标的异常数据。

第二异常数据确定单元,用于当目标类型数据不满足正态分布时,采用高斯核函数在目标类型数据中识别异常数据,并将采用高斯核函数识别的异常数据,作为目标类型数据中准确性未达标的异常数据。

其中,目标类型数据为车联网数据中的任意一种类型数据。

可选地,第一异常数据确定单元用于,确定目标类型数据的平均值和标准偏差;确定目标类型数据中各个时刻采集数据和平均值的差值的绝对值;若目标时刻采集数据和平均值的差值大于标准偏差的三倍,则确定目标时刻采集数据为异常数据;若目标时刻采集数据和平均值的差值小于等于标准偏差的三倍,则确定目标时刻采集数据为正常数据;其中,目标时刻采集数据为在任意时刻采集的目标类型数据。

可选地,第一异常数据确定单元和第二异常数据确定单元用于,将目标类型数据中各个时刻采集数据作为高斯核函数的核函数中心,得到各个时刻采集数据对应的概率密度函数;将各个时刻采集数据对应的概率密度函数相加,得到目标类型数据的概率密度函数;若基于目标类型数据的概率密度函数得到目标时刻采集数据的出现概率小于概率阈值,则确定目标时刻采集数据为异常数据;若基于目标类型数据的概率密度函数得到目标时刻采集数据的出现概率大于等于概率阈值,则确定目标时刻采集数据为正常数据;其中,目标时刻采集数据为在任意时刻采集的目标类型数据。

在一个实施例中,识别模块303包括:时刻确定单元和数量统计单元,其中:

时刻确定单元,用于确定每一种类型数据中缺失数据的采集时刻。

数量统计单元,用于基于每一种类型数据中缺失数据的采集时刻,统计多种数据缺失情况的缺失数据数量,作为完整性未达标的异常数据,多种数据缺失情况包括单独缺失、连续缺失少量数据、连续缺失大量数据。

在一个实施例中,确定模块304包括:结果确定单元和结果判定单元,其中:

结果确定单元,用于采用如下公式确定目标类型数据的质量评价结果:q=w

结果判定单元,用于当目标类型数据的质量评价结果大于质量阈值时,确定目标类型数据的质量等级达标;当目标类型数据的质量评价结果小于等于质量阈值时,确定目标类型数据的质量等级未达标;其中,目标类型数据为车联网数据中的任意一种类型数据。

关于车联网数据质量确定装置的具体限定可以参见上文中对于车联网数据质量确定方法的限定,在此不再赘述。上述车联网数据质量确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储车联网数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种车联网数据质量确定方法。

本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:确定数据筛选条件和多个质量评价指标的权重,多个质量评价指标包括准确性、完整性和时效性;获取满足数据筛选条件的车联网数据,车联网数据包括在不同时刻采集的至少一种类型数据;基于每一种类型数据确定每个质量评价指标未达标的异常数据;基于每一种类型数据、每个质量评价指标未达标的异常数据和多个质量评价指标的权重,确定每一种类型数据的质量等级。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:确定每一种类型数据是否满足正态分布;若目标类型数据满足正态分布,则分别采用拉依达准则和高斯核函数在目标类型数据中识别异常数据,并将采用拉依达准则识别的异常数据和采用高斯核函数识别的异常数据的并集,作为目标类型数据中准确性未达标的异常数据;若目标类型数据不满足正态分布,则采用高斯核函数在目标类型数据中识别异常数据,并将采用高斯核函数识别的异常数据,作为目标类型数据中准确性未达标的异常数据;其中,目标类型数据为车联网数据中的任意一种类型数据。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:确定目标类型数据的平均值和标准偏差;确定目标类型数据中各个时刻采集数据和平均值的差值的绝对值;若目标时刻采集数据和平均值的差值大于标准偏差的三倍,则确定目标时刻采集数据为异常数据;若目标时刻采集数据和平均值的差值小于等于标准偏差的三倍,则确定目标时刻采集数据为正常数据;其中,目标时刻采集数据为在任意时刻采集的目标类型数据。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:将目标类型数据中各个时刻采集数据作为高斯核函数的核函数中心,得到各个时刻采集数据对应的概率密度函数;将各个时刻采集数据对应的概率密度函数相加,得到目标类型数据的概率密度函数;若基于目标类型数据的概率密度函数得到目标时刻采集数据的出现概率小于概率阈值,则确定目标时刻采集数据为异常数据;若基于目标类型数据的概率密度函数得到目标时刻采集数据的出现概率大于等于概率阈值,则确定目标时刻采集数据为正常数据;其中,目标时刻采集数据为在任意时刻采集的目标类型数据。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:确定每一种类型数据中缺失数据的采集时刻;基于每一种类型数据中缺失数据的采集时刻,统计多种数据缺失情况的缺失数据数量,作为完整性未达标的异常数据,多种数据缺失情况包括单独缺失、连续缺失少量数据、连续缺失大量数据。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:采用如下公式确定目标类型数据的质量评价结果:q=w

在一个实施例中,处理器执行计算机程序时还实现以下步骤:若目标类型数据的质量等级达标,则对目标类型数据进行数据挖掘,目标类型数据为车联网数据中的任意一种类型数据。

上述计算机设备,通过确定数据筛选条件,并获取满足数据筛选条件的车联网数据,可以利用数据筛选条件对车联网数据进行筛选,只有满足数据筛选条件的车联网数据才进行后续处理。这样,可以针对数据挖掘所关注的部分数据进行质量评估,从而提高质量评估结果的精准度,同时减少数据处理量,提高质量评估的速度。获取的车联网数据包括在不同时刻采集的至少一种类型数据,通过基于每一种类型数据确定每个质量评价指标未达标的异常数据,可以针对不同类型数据和不同质量评价指标分别进行处理,有利于提高质量评估结果的精准度。而且通过确定包括准确性、完整性和时效性的多个质量评价指标的权重,并基于每一种类型数据、每个质量评价指标未达标的异常数据和多个质量评价指标的权重,确定每一种类型数据的质量等级,可以利用权重的分配调整各种质量评价指标未达标的异常数据对数据质量等级的影响大小。这样,可以针对实际需求选取质量评价指标并设定其重要程度,得到适应实际需求的精准评价结果。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:确定数据筛选条件和多个质量评价指标的权重,多个质量评价指标包括准确性、完整性和时效性;获取满足数据筛选条件的车联网数据,车联网数据包括在不同时刻采集的至少一种类型数据;基于每一种类型数据确定每个质量评价指标未达标的异常数据;基于每一种类型数据、每个质量评价指标未达标的异常数据和多个质量评价指标的权重,确定每一种类型数据的质量等级。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:确定每一种类型数据是否满足正态分布;若目标类型数据满足正态分布,则分别采用拉依达准则和高斯核函数在目标类型数据中识别异常数据,并将采用拉依达准则识别的异常数据和采用高斯核函数识别的异常数据的并集,作为目标类型数据中准确性未达标的异常数据;若目标类型数据不满足正态分布,则采用高斯核函数在目标类型数据中识别异常数据,并将采用高斯核函数识别的异常数据,作为目标类型数据中准确性未达标的异常数据;其中,目标类型数据为车联网数据中的任意一种类型数据。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:确定目标类型数据的平均值和标准偏差;确定目标类型数据中各个时刻采集数据和平均值的差值的绝对值;若目标时刻采集数据和平均值的差值大于标准偏差的三倍,则确定目标时刻采集数据为异常数据;若目标时刻采集数据和平均值的差值小于等于标准偏差的三倍,则确定目标时刻采集数据为正常数据;其中,目标时刻采集数据为在任意时刻采集的目标类型数据。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将目标类型数据中各个时刻采集数据作为高斯核函数的核函数中心,得到各个时刻采集数据对应的概率密度函数;将各个时刻采集数据对应的概率密度函数相加,得到目标类型数据的概率密度函数;若基于目标类型数据的概率密度函数得到目标时刻采集数据的出现概率小于概率阈值,则确定目标时刻采集数据为异常数据;若基于目标类型数据的概率密度函数得到目标时刻采集数据的出现概率大于等于概率阈值,则确定目标时刻采集数据为正常数据;其中,目标时刻采集数据为在任意时刻采集的目标类型数据。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:确定每一种类型数据中缺失数据的采集时刻;基于每一种类型数据中缺失数据的采集时刻,统计多种数据缺失情况的缺失数据数量,作为完整性未达标的异常数据,多种数据缺失情况包括单独缺失、连续缺失少量数据、连续缺失大量数据。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:采用如下公式确定目标类型数据的质量评价结果:q=w

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:若目标类型数据的质量等级达标,则对目标类型数据进行数据挖掘,目标类型数据为车联网数据中的任意一种类型数据。

上述存储介质,通过确定数据筛选条件,并获取满足数据筛选条件的车联网数据,可以利用数据筛选条件对车联网数据进行筛选,只有满足数据筛选条件的车联网数据才进行后续处理。这样,可以针对数据挖掘所关注的部分数据进行质量评估,从而提高质量评估结果的精准度,同时减少数据处理量,提高质量评估的速度。获取的车联网数据包括在不同时刻采集的至少一种类型数据,通过基于每一种类型数据确定每个质量评价指标未达标的异常数据,可以针对不同类型数据和不同质量评价指标分别进行处理,有利于提高质量评估结果的精准度。而且通过确定包括准确性、完整性和时效性的多个质量评价指标的权重,并基于每一种类型数据、每个质量评价指标未达标的异常数据和多个质量评价指标的权重,确定每一种类型数据的质量等级,可以利用权重的分配调整各种质量评价指标未达标的异常数据对数据质量等级的影响大小。这样,可以针对实际需求选取质量评价指标并设定其重要程度,得到适应实际需求的精准评价结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

相关技术
  • 车联网数据质量确定方法、装置、计算机设备和存储介质
  • 车联网数据质量的检验方法、装置、设备及存储介质
技术分类

06120113135886