掌桥专利:专业的专利平台
掌桥专利
首页

一种数据采集的方法及终端设备

文献发布时间:2023-06-19 10:38:35


一种数据采集的方法及终端设备

技术领域

本发明属于区块链技术领域,尤其涉及一种数据采集的方法及终端设备。

背景技术

随着电子化进程的不断发展,越来越多的交易操作可以通过线上的方式完成,不同的交易服务平台可以个性化配置数据库,并通过数据库对交易数据进行存储,在需要从各个交易服务平台获取交易数据,以进行异常识别的过程中,则需要整理以不同数据格式存储的交易数据,以确保交易环境的安全性。

然而现有的数据采集技术,不同交易服务平台中存储交易数据采用的数据库存在差异,异常数据识别模型需要根据各个数据库的数据格式的差异进行模型调整,当任一数据库的格式发生改变时,均需要对异常数据识别模块进行算法变更,从而增加了异常数据的识别难度以及模型开发量,交易数据的数据库与异常数据识别模型之间的强耦合,增加了模型的更新频率。

发明内容

有鉴于此,本申请实施例提供了一种数据采集的方法及终端设备,以解决现有的数据采集技术,交易数据的数据库与异常数据识别模型之间的强耦合,增加了模型的更新频率,异常数据的识别难度以及模型开发量较高的问题。

本申请实施例的第一方面提供了一种数据采集的方法,包括:

为用于采集目标数据的接口配置中间件;

调用所述中间件从目标数据库获取原始数据,并通过所述中间件对所述原始数据进行格式转换,生成所述目标数据并导入所述接口;

基于预设的异常检测模型输出所述目标数据的异常检测结果;

若所述异常检测结果为数据异常,则对所述目标数据执行异常响应操作。

本申请实施例的第二方面提供了一种数据采集的设备,包括:

中间件配置单元,用于为用于采集目标数据的接口配置中间件;

目标数据导入单元,用于调用所述中间件从目标数据库获取原始数据,并通过所述中间件对所述原始数据进行格式转换,生成所述目标数据并导入所述接口;

异常检测结果输出单元,用于基于预设的异常检测模型输出所述目标数据的异常检测结果;

异常数据响应单元,用于若所述异常检测结果为数据异常,则对所述目标数据执行异常响应操作。

本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面的各个步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面的各个步骤。

实施本申请实施例提供的一种数据采集的方法及设备具有以下有益效果:

本申请实施例通过在采集用于进行异常识别的目标数据的接口处配置有中间件,并调用中间件从存储有目标数据的目标数据库获取原始数据,通过中间件对原始数据进行格式转换,从而能够保证了输入到终端设备内部的数据格式保持统一,继而可以通过内置的异常检测模型输出异常检测结果,并对数据异常的目标数据进行异常响应操作,从而实现了自动获取目标数据以及对异常数据的识别。与现有的数据采集技术相比,本申请能够通过在获取目标数据的传输链路上,配置有中间件,通过中间件对数据进行预处理,从而实现了对目标数据库与异常检测模型之间的解耦,当目标数据库的数据格式发生变更时,只需调整对应的中间件,而无需对整个异常数据模型的算法进行调整,从而降低了模型更新频率以及异常数据的识别难度。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本申请第一实施例提供的一种数据采集的方法的实现流程图;

图2是本申请一实施例提供的数据链路的示意图;

图3是本申请第二实施例提供的一种数据采集的方法S101具体实现流程图;

图4是本申请一实施例提供的中间件的结构框图;

图5是本申请第三实施例提供的一种数据采集的方法具体实现流程图;

图6是本申请第四实施例提供的一种数据采集的方法S501具体实现流程图;

图7是本申请第五实施例提供的一种数据采集的方法S503具体实现流程图;

图8是本申请第六实施例提供的一种数据采集的方法具体实现流程图;

图9是本申请第七实施例提供的一种数据采集的方法具体实现流程图;

图10是本申请一实施例提供的一种数据采集的设备的结构框图;

图11是本申请另一实施例提供的一种终端设备的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请实施例通过在采集用于进行异常识别的目标数据的接口处配置有中间件,并调用中间件从存储有目标数据的目标数据库获取原始数据,通过中间件对原始数据进行格式转换,从而能够保证了输入到终端设备内部的数据格式保持统一,继而可以通过内置的异常检测模型输出异常检测结果,并对数据异常的目标数据进行异常响应操作,从而实现了自动获取目标数据以及对异常数据的识别,解决了现有的数据采集技术,交易数据的数据库与异常数据识别模型之间的强耦合,增加了模型的更新频率,异常数据的识别难度以及模型开发量较高的问题。

在本申请实施例中,流程的执行主体为终端设备,该终端设备包括但不限于:服务器、计算机、智能手机以及平板电脑等能够执行数据采集的方法的设备。图1示出了本申请第一实施例提供的数据采集的方法的实现流程图,详述如下:

在S101中,为用于采集目标数据的接口配置中间件。

在本实施例中,交易数据可以存储于不同的交易服务平台,不同的交易服务平台可以采用不同的数据库存储交易数据。为了从不同的交易服务平台获取所需进行处理的交易数据,可以在终端设备上配置有多个接口,并为每个接口关联对应的交易服务平台,并通过各个接口来自关联的交易服务平台反馈的交易数据。在一种可能的实现方式中,上述接口可以采用时分复用的方式,具体地,终端设备可以为不同的交易服务平台配置关联的数据采集时刻,若其中两个交易服务平台的数据采集时刻之间的时间间隔大于预设的时间阈值,则识别上述两个交易服务平台满足时分复用条件,在该情况下,终端设备可以将上述两个交易数据平台的关联接口配置为同一接口。

在本实施例中,终端设备存储有数据监控列表。该数据监控列表存储有所需要采集所有目标数据,例如,终端设备需要采集保险交易数据以及银行交易数据,上述两个类型的数据存储与不同的交易服务平台,则终端设备可以将上述两个交易服务平台添加到上述数据监控列表内,终端设备则可以根据各个交易服务平台的网络地址,从交易服务平台对应的数据库获取上述的目标数据。可选地,上述数据监控列表内可以存储有各个交易数据平台关联的采集触发条件,终端设备若检测到满足上述采集触发条件时,则获取该交易数据平台关联的目标数据。

在一种可能的实现方式中,终端设备可以获取各个目标数据关联的目标数据库的数据库信息,该数据库信息包含有数据库格式、数据包格式等与存储数据相关的指标参数。若检测到任意两个或以上的所述数据库信息匹配,则将上述数据库信息关联的两个或以上的所述目标数据库划分到同一数据组。为各个数据组配置对应的中间件,即数据库信息匹配的多个目标数据采用同一接口进行采集。在该情况下,若检测到数据库信息发生变更,并且数据库变更后,该变更的目标数据对应的数据库信息与所属数据组内的其他目标数据的数据库信息不一致,则与其他数据组的数据库信息进行匹配,确定匹配的数据组,并调整发生变更的目标数据关联的数据组。若各个已有的数据组的数据库信息与该变更的目标数据的数据库信息均不匹配,则为该目标数据创建新的接口。同样地,若需要新增目标数据,则可以在上述的数据监控列表内添加新增的目标数据的交易服务平台,在该情况下,终端设备可以获取该新增的交易服务平台关联的目标数据库的数据库信息,并与各个已创建的数据组对应的数据库信息进行匹配,确定该新增的目标数据所属的数据组,继而通过该新增的目标数据匹配的数据组对应接口采集新增的目标数据;若已创建的各个数据组对应的数据库信息与新增的目标数据对应的数据库信息不匹配,则可以为该新增的目标数据创建一个新的数据组,并为该新增的数据组配置新的接口进行数据采集。

在本实施例中,目标数据库需要将目标数据导入到关联的接口后,才能够输入至终端设备内置的异常数据识别模型,为了实现异常数据识别模型与目标数据库之间的解耦,终端设备可以在目标数据库与接口之间的通信链路配置有中间件。

示例性地,图2示出了本申请一实施例提供的数据链路的示意图。参见图2所示,现有的数据链路是从目标数据库获取目标数据,并通过接口传入到异常数据识别模型。本实施例可以在目标数据库与接口之间的通信链路配置有中间件,从而通过中间件对从目标数据库获取得到的原始数据进行处理,继而再通过接口导入至异常数据识别模型。

在S102中,调用所述中间件从目标数据库获取原始数据,并通过所述中间件对所述原始数据进行格式转换,生成所述目标数据并导入所述接口。

在本实施例中,终端设备若检测到满足目标数据的采集条件时,则可以执行S102的操作。具体地,上述目标数据的采集条件可以为时间触发条件,即终端设备可以为目标数据配置对应的采集周期或采集时间节点,若检测到当前时刻到达上述的采集周期或采集时间节点,则判定满足目标数据的采集条件,调用中间件采集目标数据。上述目标数据的采集条件还可以为事件触发条件,例如该事件触发条件为数据量触发,即检测到新增的目标数据到达预设的数据量阈值时,则获取目标数据。

在本实施例中,终端设备可以记录有各个目标数据关联的目标数据库的通信地址,并将该通信地址写入上述关联接口的中间件内。当中间件被激活时,可以根据上述通信地址直接与目标数据库建立通信连接,并从目标数据库下载原始数据。

在一种可能的实现方式中,中间件可以配置有对应的数据检索语段,该数据检索语段用于从目标数据库中提取的原始数据。该数据检索语段可以为SQL语句,通过SQL语句将目标数据库内的各个数据进行匹配,基于匹配结果获取与SQL语句关联的数据作为上述的原始数据。

在一种可能的实现方式中,中间件可以对目标数据进行增量采集。该中间件可以获取有上一采集过程的第一数据编号,并基于当前最新创建的数据编号,确定数据采集编号范围,即第一数据编号后至最新创建的数据编号之间的所有数据为本次所需采集的数据。

在本实施例中,终端设备通过中间件从目标数据库获取得到的原始数据后,可以将原始数据导入到中间件配置的数据格式转换模型,从而能够输出与终端设备相匹配的目标数据,并将目标数据导入到接口,以通过接口传输到终端设备的处理器进行后续处理操作。

在一种可能的实现方式中,终端设备可以根据目标数据库的数据格式与本地的标准格式,确定数据格式转换模型,并将上述数据格式转换模型导入上述的中间件,从而可以将从目标数据库的原始数据转换为统一格式,从而可以保证异常数据识别模型所处理的数据格式的统一性。

在S103中,基于预设的异常检测模型输出所述目标数据的异常检测结果。

在本实施例中,终端设备可以配置有异常检测模型,该异常检测模型可以有用户进行手动配置,在该情况下,终端设备可以在生成对应的检测模型配置页面,该检测模型配置页面包含有模型名、风险数据的选取条件以及异常数据的识别条件等。终端设备可以在上述检测模型配置页面上述手动配置异常识别条件,由于模型内不同的选取条件进行模块化分类,用户可以在对应的模块内填写对应的条件,从而方便对于不具备编程知识的用户也可以进行异常检测模型的设置。终端设备在接收到用户的配置完成指令时,可以将模型名、风险数据的选取条件以及异常数据的识别条件等各个模块的输入信息进行封装,转换为计算机可以识别的算法语言,从而生成上传的异常检测模型。

在一种可能的实现方式中,上述异常检测模块可以从云端服务器下载得到,云端服务器可以配置有向各个下联的终端设备发送异常检测模块,该异常检测模型可定期进行更新,以使内置的异常检测算法与当前数据相匹配。例如,某一目标数据的数据项发生变更,例如新增了数据项或减少了数据项,此时,云端服务器可以对上述的异常检测模型进行调整,以使该异常检测模型与数据项变更后的目标数据相匹配,并将更新后的异常检测模型发送给各个下联的终端设备。

在本实施例中,中间件获取有多个目标数据,举例性地,一个交易记录可以生成一个目标数据。终端设备将各个目标数据导入到上述的异常检测模型,分别得到各个目标数据的异常检测结果,从而可以确定各个交易记录是否合法。若目标数据的异常检测结果为数据合法,则可以执行合法响应操作,例如对目标数据进行归档或响应目标数据的交易请求。

在S104中,若所述异常检测结果为数据异常,则对所述目标数据执行异常响应操作。

在本实施例中,若上述异常检测模型输出任一目标数据的异常检测结果为数据异常,则可以将该目标数据识别为异常数据,并对异常数据进行异常响应操作。上述异常响应操作包括但不限于:数据无效、目标数据的关联用户发送异常指令或者拒绝响应目标数据对应的交易请求等。

在一种可能的实现方式中,终端设备可以统计异常检测结果为数据异常的异常个数。若该异常个数大于预设的异常阈值,则生成数据库异常预警信息,以便维护人员对目标数据对应的数据库进行异常处理,以核实产生大量异常数据的原因,是数据转换过程异常而导致大量异常数据,或是该目标数据库在响应交易请求时,没有对异常请求继续过滤,从而产生大量发生异常的目标数据等,能够实现异常自检的目的。

以上可以看出,本申请实施例提供的一种数据采集的方法通过在采集用于进行异常识别的目标数据的接口处配置有中间件,并调用中间件从存储有目标数据的目标数据库获取原始数据,通过中间件对原始数据进行格式转换,从而能够保证了输入到终端设备内部的数据格式保持统一,继而可以通过内置的异常检测模型输出异常检测结果,并对数据异常的目标数据进行异常响应操作,从而实现了自动获取目标数据以及对异常数据的识别。与现有的数据采集技术相比,本申请能够通过在获取目标数据的传输链路上,配置有中间件,通过中间件对数据进行预处理,从而实现了对目标数据库与异常检测模型之间的解耦,当目标数据库的数据格式发生变更时,只需调整对应的中间件,而无需对整个异常数据模型的算法进行调整,从而降低了模型更新频率以及异常数据的识别难度。

图3示出了本申请第二实施例提供的一种数据采集的方法S101的具体实现流程图。参见图3,相对于图1所述实施例,本实施例提供的一种数据采集的方法中S101包括:S1011~S1014,具体详述如下:

进一步地,所述为用于采集目标数据的接口配置中间件,包括:

在S1011中,获取所述目标数据关联的所述目标数据库的数据库信息,并基于所述数据库信息确定所述目标数据库的数据库语言。

在本实施例中,终端设备可以通过自动化的方式配置上述的中间件。具体地,由于中间件的具体是需要将目标数据库所存储的数据转换至终端设备内统一数据格式,基于此,终端设备在配置中间件时,可以向目标数据所属的目标数据库发送信息获取请求,目标数据库在接收到上述的信息获取请求后,可以向终端设备反馈关于目标数据的数据库信息。

在一种可能的实现方式中,上述数据库信息可以包含有关于目标数据库的数据库语言,在该情况下,终端设备可以对上述数据库信息进行解析,并获取在数据库信息中用于标记上述数据库语言对应的字段,基于该字段内对应的参数值,确定目标数据库在存储目标数据时所使用的数据库语言。

在一种可能的实现方式中,上述数据库信息可以不包含目标数据库所使用的数据库语言,但包含例如目标数据库的数据库类型、版本编号等信息,终端设备可以根据上述数据库类型或版本编号,确定关联的数据库语言。举例性地,若某一交易服务平台内的目标数据库是基于Oracle数据库搭建的,其存储的交易数据的数据格式可以为CSV格式的文件,在该情况下,终端设备可以确定目标数据库对应的数据库语言为CSV语言。

在S1012中,基于预设的数据采集任务,确定所述目标数据包含的数据项,并确定各个数据项对应的检索关键词。

在本实施例中,目标数据库内可以为各个交易记录配置有多个数据项,在生成目标数据并执行异常检测的过程中,并非所有已有的数据项均为有效数据项,在该情况下,终端设备可以向终端设备发送数据采集任务,该数据采集任务内可以配置有采集目标数据时所需采集的数据项。举例性地,目标数据库内存储交易记录的数据项包含有“数据编号”“数据名”“数据所述账户”“数据交易日期”以及“数据交易金额”,而在进行数据异常识别的过程中,“数据编号”以及“数据名”是无需数据,则可以在上述数据采集任务内配置所需采集的数据项为“数据所述账户”“数据交易日期”以及“数据交易金额”。终端设备可以通过对数据采集任务进行解析,确定采集目标数据时所需采集的数据项,对于无效数据项的参数值则不需要进行采集,从而能够减少采集的数据量,提高采集效率。

在一种可能的实现方式中,用户可以将目标数据的示例数据表导入到上述数据采集任务内,该示例数据表包含有目标数据所需采集的数据项。终端设备对上述示例数据表的表头进行识别,确定该表头包含的数据项,从而确定目标数据包含的数据项。

在本实施例中,终端设备根据各个数据项的项目名,配置对应的检索关键词。例如,上述交易数据中某一项目名为“数据交易金额”则可以将上述的搜索关键词确定为“数据交易金额”。可选地,终端设备可以对目标数据库内各个已有的数据项的项目名进行异化关键词识别,确定各个项目名对应的异化关键词,将上述异化关键词作为上述的检索关键词。上述异化关键词为只出现关联的数据项而没有出现在其他数据项的关键词。举例性地,上述目标数据库存储有的数据项包含有“数据编号”“数据名”“数据所述账户”“数据交易日期”以及“数据交易金额”,对于“数据交易金额”这一数据项而言,“数据”这一关键词出现在各个数据项内,因此为非异化关键词;而“交易”这一关键词出现在“数据交易日期”以及“数据交易金额”内,同样也为非异化关键词;而“金额”这一关键词只出现在上述数据项内,因此“金额”为该数据项对应的异化关键词。终端设备可以通过各个数据项进行上述一异化关键词的识别,从而减少检索关键词的数据量,并提高了搜索效率。

在S1013中,以所述数据库语言构建关于各个检索关键词的数据采集语段。

在本实施例中,终端设备在确定了各个数据项的检索关键词后,可以基于目标数据库对应的数据库语言,生成包含该检索关键词的数据采集语段。例如,目标数据库是基于MySQL语言搭建的数据库,则可以生成包含上述检索关键词的SQL语句,从而可以通过上述SQL语句从目标数据库获取关联数据项的数据。

在S1014中,对所有所述数据采集语段进行封装,生成所述接口关联的所述中间件。

在本实施例中,终端设备可以将各个数据项对于应的数据采集语段进行封装,得到可以用于采集目标数据的中间件。当然,终端设备还可以将目标数据库的数据库语言与本地使用的数据格式之间的转换算法封装到上述中间件内,从而便于将获取到的目标数据进行数据格式转换。

示例性地,图4示出了本申请一实施例提供的中间件的结构框图。参见图4所示,该中间件包括有数据采集模块以及数据转换模块。该数据采集模块内包含有各个数据采集语段,通过数据采集模块从目标数据库采集原始数据,并将原始数据导入到上述的数据转换模块,生成目标数据。

在本申请实施例中,通过接收数据采集任务以及采集目标数据库的数据库信息,自动配置中间件,实现了中间件的自动配置的目的,提高了数据采集的自动化程度。

图5示出了本申请第三实施例提供的一种数据采集的方法的具体实现流程图。参见图5,相对于图1所述的实施例,本实施例提供的一种数据采集的方法中在所述基于预设的异常检测模型输出所述目标数据的异常检测结果之前,还包括:S501~S504,具体详述如下:

进一步地,在所述基于预设的异常检测模型输出所述目标数据的异常检测结果之前,还包括:

在S501中,获取关于所述异常检测模型的异常系数转换算法。

在本实施例中,终端设备可以用户配置或互联网获取的方式,获取得到对交易数据进行异常检测的异常系数转换算法。在一种可能的实现方式中,上述异常系数转换算法可以存储于目标数据对应的目标数据库内,终端设备可以向目标数据库发送算法获取指令,以从目标数据库下载得到上述异常系数转换算法。当然,终端设备也可以在本地生成用于进行异常系数转换算法的设置页面,并用户可以在上述异常系数转换算法内进行算法配置,例如限定各个数据项的异常参数范围、数据项对应的基准参数值以及异常加权系数等。

在S502中,解析所述目标数据包含的数据项,并从所述目标数据库中获取各个所述数据项的有效取值范围。

在本实施例中,终端设备可以根据目标数据包含的数据项,确定各个数据项在目标数据库内的有效取值范围。终端设备可以根据数据项所存储数据的数据类型,确定该有效取值范围。举例性地,若该数据项对应的数据类型为int8,则该数据项所存储的数据为整型数,且对于有符号的数据则对应的数据范围为(-64,+63)。

在一种可能的实现方式中,上述有效取值范围的确定方式具体可以为:根据目标数据库内的所有已有数据的数据值,确定最小值以及最大值,从而确定该参数项的有效取值范围。

在S503中,基于历史异常数据在各个数据项的实际取值以及所述有效取值范围,生成关于所述目标数据的风险数据提取语段。

在本实施例中,终端设备可以在本地存储模块或目标服务器处存储有已识别的异常数据,即上述的历史异常数据,获取历史异常数据在各个数据项对应的数据值。终端设备可以根据所有历史异常数据的实际取值,确定历史异常数据在各个数据项对应的异常取值范围,通过将异常取值范围与有效取值范围进行比对,确定出风险项,该风险项可以为异常取值范围超出有效取值范围的数据项;若在异常取值范围集中有效取值范围内的一较小的区域范围内,则表示该异常数据在该数据项内的较为集中,可以通过该数据项的取值确定该采集到的数据是否为异常数据。

在本实施例中,终端设备在确定了数据项内包含的风险项后,可以生成用于提取风险数据的提取语段,从而实现对目标数据进行筛选,以提高异常数据的识别效率。其中,上述风险数据提取语段具体用于判断目标数据在风险项中的取值是否在异常取值范围内,若是,则识别为风险数据,反之则识别为非风险数据。

在S504中,基于所述异常系数转换算法以及所述风险数据提取语段,生成所述异常检测模型,以通过所述风险数据提取语段从所述目标数据中提取风险数据,并通过所述异常系数转换算法计算各个风险数据的异常系数,并基于所述异常系数得到所述异常检测结果。

在S505中,并将所述异常检测模型上传至区块链系统。

在本实施例中,终端设备可以将上述异常系数转换算法以及风险数据提取语段进行封装,得到上述的异常检测模型。其中,该异常检测模型的处理逻辑为:终端设备将目标数据导入到异常检测模型后,会通过风险数据提取语段识别该目标数据是否为风险数据,识别的规则如上述。若判断该目标数据为风险数据时,则导入到异常系数转换算法,计算该风险数据对应的异常系数,并基于异常系数输出异常检测结果;若判断该目标数据为非风险数据时,则输出数据正常的异常检测结果。

在一种可能的实现方式中,终端设备以及各个目标数据库对应的服务器可以构建一区块链系统,即终端设备以及数据库服务器均作为上述区块链系统的区块节点,其中,上述异常检测模型可以存储于一区块链节点内,终端设备可以将所需要检测的目标数据发送给存储有该异常检测模型的区块链节点中,以输出该目标数据对应的异常检测结果,以将该异常检测结果进行上链操作,从而各个节点均可以从区块链系统中下载得到上述异常检测结果,使得异常检测结果不易被篡改。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。终端设备可以通过区块链系统查询目标数据对应的异常检测结果,实现了检测结果的任务回放,便于结果查询。

在本申请的所有实施例中,基于异常系数转换算法以及所述风险数据提取语段得到对应的异常检测模型。将异常检测模型上传至区块链可保证其安全性和对用户的公正透明性。各个终端设备可以从区块链中下载得该异常检测模型,以确保异常检测结果的检测规则的统一性。

在一种可能的实现方式中,终端设备可以将上述异常检测模型封装为一区块数据包,该区块数据包包含有从区块链系统中下载得到的唯一标示符,将该区块数据包上传至区块链系统内,即将该区块数据包发送给区块链系统内的各个区块节点。

在本申请实施例中,通过获取异常系数转换算法以及历史异常数据,能够自动配置得到用于识别异常数据的异常检测模型,提高了异常识别过程的自动化,从而提升了异常识别效率。

图6示出了本申请第四实施例提供的一种数据采集的方法S501的具体实现流程图。参见图6,相对于图5所述实施例,本实施例提供的一种数据采集的方法S501包括:S5011~S5013,具体详述如下:

进一步地,所述获取关于所述异常检测模型的异常系数转换算法,包括:

在S5011中,获取各个已识别的所述历史异常数据在各个数据项的所述实际取值。

在本实施例中,终端设备可以在本地存储模块或目标服务器处存储有已识别的异常数据,即上述的历史异常数据,获取历史异常数据在各个数据项对应的数据值。

在S5012中,根据所有所述实际取值计算各个所述数据项对应的均方差,并基于各个所述均方差确定各个数据项对应的异常转换权重。

在本实施例中,终端设备可以计算历史异常数据在各个数据项内对应的均方差,若该均方差的数值越大,则表示该历史异常数据在该数据项中的离散程度越大,即异常数据在该数据项的特征表现较弱;反之,若历史异常数据在该数据项中的均方差数值越小,则表示该历史异常数据在该数据项中的离散程度越低,即异常数据在该数据项的特征表现较强。基于此,终端设备可以基于均方差的数值,确定各个数据项在后续计算异常系数时对应的异常转换权重。若该均方差的数值越小,则对应的异常转换权重越大;反之,若该均方差的数值越大,则对应的异常转换权重越小。

在S5013中,基于所有所述实际取值的均值以及所述异常转换权重,生成所述异常系数转换算法。

在本实施例中,终端设备在计算各个数据项的均方差时,可以计算各个数据项的对应的均值,并基于各个数据项对应的均值以及异常转换权重,得到异常系数转换算法。具体地,该异常系数转换算法可以为:

其中,Error为上述的异常系数;date

在本申请实施例中,通过计算各个数据项关于异常数据的均方差,配置异常转换权重,从而可以自动生成异常系数转换算法,无需人工配置,提高了算法的准确性的同时,减少人为操作,降低了异常检测模型的开发难度。

图7示出了本申请第五实施例提供的一种数据采集的方法S503的具体实现流程图。参见图7,相对于图5所述实施例,本实施例提供的一种数据采集的方法S503包括:S5031~S5034,具体详述如下:

进一步地,所述基于历史异常数据在各个数据项的实际取值以及所述有效取值范围,生成关于所述目标数据的风险数据提取语段,包括:

在S5031中,根据所有所述实际取值,确定所述历史异常数据的风险参数范围。

在本实施例中,终端设备根据所有历史异常数据的实际取值,选取出最小异常取值以及最大异常取值,并基于最小异常取值以及最大异常取值确定出各个数据项对应的风险参数范围。

在S5032中,若所述风险参数范围与所述有效参数范围不一致,则识别所述数据项为风险项。

在本实施例中,通过各个数据项的风险参数范围与有效参数范围是否一致,确定该数据项是否为风险项。若两个参数范围一致,则表示正常数据在该数据项的取值与异常数据在该数据项的取值并没有差异,无法通过该数据项对异常数据进行识别,因此会识别该数据项为风险项;反之,若该数据项对于正常数据的取值与异常数据的取值之间存在差异,则可以基于该数据项进行异常识别,将其识别为风险项。

在S5033中,基于所有所述历史异常数据,确定各个所述风险项之间的共现关系,并基于所述共现关系各个所述风险项之间的选取逻辑关系。

在本实施例中,终端设备可以将在风险取值范围内的取值识别为风险值;将风险取值范围外且在有效取值范围内的取值识别为非风险值。在该情况下,终端设备可以根据所有历史异常数据在该各个风险数据是取风险值或是非风险值,得到各个风险项之间的共现关系。例如,所有历史异常数据在风险项A与风险项B中均取风险值,则识别风险项A与风险项B存在必然共现关系;又例如,所有历史异常数据在风险项A取风险值时,必然不会在风险项B中取风险值,则识别风险项A与风险项B存在择一出现关系。终端设备可以根据各个风险项的共现关系确定对应的选取逻辑关系。

具体地,若任意两个风险项存在必然共现关系,则识别两个风险项为逻辑与关系;若任意两个风险项存在择一出现关系,则识别两个风险项为逻辑或关系。

在S5034中,基于所有所述风险项的所述选取逻辑关系,得到所述风险数据提取语段。

在本实施例中,终端设备可以根据各个风险项之间相互的选取逻辑关系,可以生成风险数据提取语段,从而可以确定目标数据中包含的风险数据。

在本申请实施例中,根据历史异常数据的实际取值,确定能够进行异常识别的风险项,并基于各个风险项取异常取值时的共现关系,确定相互之间的选取逻辑关系,从而生成了风选数据提取语段,实现了风险数据提取语段的自动配置,提高了数据采集过程的自动化程度。

图8示出了本申请第六实施例提供的一种数据采集的方法的具体实现流程图。参见图8,相对于图1-7任一所述实施例,本实施例提供的一种数据采集的方法中在所述调用所述中间件从目标数据库获取原始数据,并通过所述中间件对所述原始数据进行格式转换,生成所述目标数据并导入所述接口之后,还包括:S801~S802,具体详述如下:

进一步地,在所述调用所述中间件从目标数据库获取原始数据,并通过所述中间件对所述原始数据进行格式转换,生成所述目标数据并导入所述接口之后

在S701中,通过本地数据格式对应的校验算法识别所述目标数据的误码率。

在本实施例中,终端设备在通过中间件对原始数据进行转换得到目标数据后,可以对中间件的转换准确性进行校验。具体地,终端设备可以将目标数据导入到本地数据格式相对应的校验算法,识别该目标数据中是否包含异常的字符,即为上述的误码,并基于目标数据包含的误码占所有数据的比例,确定误码率。

在S702中,若所述目标数据的误码率大于预设的正常误码阈值,则输出所述中间件的模块异常信息,以对所述中间件进行修复。

在本实施例中,若该误码率大于预设的正常误码阈值,则识别中间件在进行数据格式转换时存在异常,需要对该中间件进行调整,因此会输出模块异常信息,以是管理员对中间件进行异常修复;反之,若该误码率小于或等于正常误码阈值,则识别该中间件处于正常状态,继续通过中间件对原始数据进行转换,得到目标数据。

在本申请实施例中,通过对目标数据进行误码率检测,从而实现自动检测异常中间件的目的,提高了异常识别的即时性。

图9示出了本申请第七实施例提供的一种数据采集的方法的具体实现流程图。参见图9,相对于图1至图7任一所述实施例,本实施例提供的一种数据采集的方法还包括:S901-S902,具体详述如下:

在S901中,若接收到所述目标数据库的变更指令,则获取所述目标数据库的数据变更参数。

在本实施例中,当目标数据库的数据库信息发生变更时,例如数据格式发生调整,数据包的封装方式发生变更,或各个数据项对应的数据类型发生变更,或者数据项增减等情况,目标数据库对应服务器可以向终端设备发送变更指令,该变更指令中包含有数据库的数据变更参数,以确定变更内容。

在S902中,基于所述数据变更参数调整所述中间件,以通过调整后的所述中间件从调整后的所述目标数据库获取所述原始数据。

在本实施例中,终端设备可以根据该数据变更参数对已配置的中间件进行调整,例如对数据提取语段进行调整或数据转换模型进行调整等,从而使得调整后的中间件与调整后的目标数据库相匹配。

在本申请实施例中,在目标数据库发生变更时,通过调整中间件,能够保持输入至终端设备的目标数据的格式不变,实现了目标数据库与异常检测模型之间的解耦。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。

图10示出了本申请一实施例提供的一种数据采集的设备的结构框图,该数据采集的设备包括的各单元用于执行图1对应的实施例中的各步骤。具体请参阅图10与图1所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。

参见图10,所述数据采集的设备包括:

中间件配置单元101,用于为用于采集目标数据的接口配置中间件;

目标数据导入单元102,用于调用所述中间件从目标数据库获取原始数据,并通过所述中间件对所述原始数据进行格式转换,生成所述目标数据并导入所述接口;

异常检测结果输出单元103,用于基于预设的异常检测模型输出所述目标数据的异常检测结果;

异常数据响应单元104,用于若所述异常检测结果为数据异常,则对所述目标数据执行异常响应操作。

可选地,所述中间件配置单元101包括:

数据库语言获取单元,用于获取所述目标数据关联的所述目标数据库的数据库信息,并基于所述数据库信息确定所述目标数据库的数据库语言;

检索关键词获取单元,用于基于预设的数据采集任务,确定所述目标数据包含的数据项,并确定各个数据项对应的检索关键词;

数据采集语段配置单元,用于以所述数据库语言构建关于各个检索关键词的数据采集语段;

数据采集语段封装单元,用于对所有所述数据采集语段进行封装,生成所述接口关联的所述中间件。

可选地,所述数据采集的设备还包括:

异常系数转换算法获取单元,用于获取关于所述异常检测模型的异常系数转换算法;

有效取值范围确定单元,用于解析所述目标数据包含的数据项,并从所述目标数据库中获取各个所述数据项的有效取值范围;

风险数据提取语段确定单元,用于基于历史异常数据在各个数据项的实际取值以及所述有效取值范围,生成关于所述目标数据的风险数据提取语段;

异常检测模型生成单元,用于基于所述异常系数转换算法以及所述风险数据提取语段,生成所述异常检测模型,以通过所述风险数据提取语段从所述目标数据中提取风险数据,并通过所述异常系数转换算法计算各个风险数据的异常系数,并基于所述异常系数得到所述异常检测结果;

异常检测模型上传单元,用于生成包含所述异常检测模型的区块数据包,并将所述区块数据包上传至区块链系统。

可选地,所述异常系数转换算法获取单元包括:

实际取值获取单元,用于获取各个已识别的所述历史异常数据在各个数据项的所述实际取值;

异常转换权重确定单元,用于根据所有所述实际取值计算各个所述数据项对应的均方差,并基于各个所述均方差确定各个数据项对应的异常转换权重;

异常系数转换算法生成单元,用于基于所有所述实际取值的均值以及所述异常转换权重,生成所述异常系数转换算法。

可选地,所述风险数据提取语段确定单元包括:

风险参数范围确定单元,根据所有所述实际取值,确定所述历史异常数据的风险参数范围;

风险项确定单元,用于若所述风险参数范围与所述有效参数范围不一致,则识别所述数据项为风险项;

选取逻辑关系确定单元,用于基于所有所述历史异常数据,确定各个所述风险项之间的共现关系,并基于所述共现关系各个所述风险项之间的选取逻辑关系;

选取逻辑关系封装单元,用于基于所有所述风险项的所述选取逻辑关系,得到所述风险数据提取语段。

可选地,所述数据采集的设备还包括:

误码率确定单元,用于通过本地数据格式对应的校验算法识别所述目标数据的误码率;

中间件异常识别单元,用于若所述目标数据的误码率大于预设的正常误码阈值,则输出所述中间件的模块异常信息,以对所述中间件进行修复。

可选地,所述数据采集的设备还包括:

数据变更参数接收单元,用于若接收到所述目标数据库的变更指令,则获取所述目标数据库的数据变更参数;

中间件调整单元,用于基于所述数据变更参数调整所述中间件,以通过调整后的所述中间件从调整后的所述目标数据库获取所述原始数据。

因此,本申请实施例提供的数据采集的设备能够通过在获取目标数据的传输链路上,配置有中间件,通过中间件对数据进行预处理,从而实现了对目标数据库与异常检测模型之间的解耦,当目标数据库的数据格式发生变更时,只需调整对应的中间件,而无需对整个异常数据模型的算法进行调整,从而降低了模型更新频率以及异常数据的识别难度。

图11是本申请另一实施例提供的一种终端设备的示意图。如图11所示,该实施例的终端设备11包括:处理器110、存储器111以及存储在所述存储器111中并可在所述处理器110上运行的计算机程序112,例如数据采集的程序。所述处理器110执行所述计算机程序112时实现上述各个数据采集的方法实施例中的步骤,例如图1所示的S101至S104。或者,所述处理器110执行所述计算机程序112时实现上述各装置实施例中各单元的功能,例如图10所示模块101至104功能。

示例性的,所述计算机程序112可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器111中,并由所述处理器110执行,以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序112在所述终端设备11中的执行过程。例如,所述计算机程序112可以被分割成中间件配置单元、目标数据导入单元、异常检测结果输出单元以及异常数据响应单元,各单元具体功能如上所述。

所述终端设备11可以是桌上型计算机、笔记本、掌上电脑及云端终端设备等计算设备。所述终端设备可包括,但不仅限于,处理器110、存储器111。本领域技术人员可以理解,图11仅仅是终端设备11的示例,并不构成对终端设备11的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器110可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器111可以是所述终端设备11的内部存储单元,例如终端设备11的硬盘或内存。所述存储器111也可以是所述终端设备11的外部存储设备,例如所述终端设备11上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器111还可以既包括所述终端设备11的内部存储单元也包括外部存储设备。所述存储器111用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器111还可以用于暂时地存储已经输出或者将要输出的数据。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

相关技术
  • 一种数据采集效率高的车辆数据采集终端设备
  • 一种数据采集方法、装置、终端设备及存储介质
技术分类

06120112623876