掌桥专利:专业的专利平台
掌桥专利
首页

一种基于规则和可信度的多源数据融合系统及方法

文献发布时间:2023-06-19 11:35:49


一种基于规则和可信度的多源数据融合系统及方法

技术领域

本发明涉及数据融合技术领域,尤其涉及是一种基于规则和可信度的多源数据融合系统及方法。

背景技术

由于民航数据的多样性,现在的各数据服务商都是在拿到多个渠道的数据后,按各数据源当时接收的情况,不断覆盖更新数据以求数据的及时有效,这恰恰导致了数据源在差异性较大的情况下,数据在相互覆盖更新时产生跳变和冲突,以及本身有疑问的数据被最终更新到生产数据里。并且,随着民航相关的数据服务产品越来越多,各数据服务商也汇总了很多不同渠道的数据,由于各种不同渠道的数据本身因为精确性、时效性差异性很大,多数据源相互融合使用会产生大量的冲突数据,比如A数据先更新的某个字段反复被B数据延迟未更新的同一字段反复覆盖;或者本身A数据在某个数据方向的准确性优于B数据,都会导致准确数据和错误数据相互争夺数据的使用权。

因此,为了筛选出的数据准确度,亟需在数据产出前建立一套针对多个数据源提供的海量数据,进行数据筛选和数据清洗,生成数据可用规则,并有数据可信度的优先级甄选的系统。

发明内容

针对上述现有技术存在的问题,本发明提出的一种基于规则和可信度的多源数据融合系统及方法。

本发明保护一种基于规则和可信度的多源数据融合系统,主要由任务调度模块,规则模块,可信度管理模块和数据融合模块组成。所述任务调度模块与所述规则模块连接,所述规则模块与所述可信度管理模块双向连接,所述规则模块连接所述数据融合模块。

所述任务调度模块用于获取各类数据源并根据各类数据源不同的获取方式,分配相应的处理流程,输出统一格式结构的数据。

其中,所述各类数据源不同的获取方式包括MQ队列方式的请求,Webservice的请求和Ftp方式的请求。

所述规则模块用于建立普适性规则和非普适性规则并对输入的数据进行过滤。

进一步地,所述普适性规则是对所有数据源整体进行数据合理性筛选的规则;所述非普适性规则是对所有数据源单独进行数据筛选的规则。

所述可信度管理模块用于对输入的数据进行可信度的判断,完成对数据的过滤。

其中,所述可信度管理模块包含优先级算法单元。

所述数据融合模块用于将多渠道同一格式结构的数据源融合成单一数据源。

本发明还保护基于上述多源数据融合系统的多源数据融合方法,包括如下步骤:

步骤1,根据获取各类原始数据源的方式,分配对应的解析方式,完成各类数据的格式统一;

步骤2,利用非普适性规则对各类数据进行处理,剔除不符合规则的数据,完成数据的初步过滤;

步骤3,初步过滤后的数据,进行可信度的判断,剔除不可信的数据,完成数据的可信度判断;

进一步地,上述进行可信度的判断,是通过优先级算法运算完成。

更进一步地,所述优先级算法内涵盖了相应规则和权重。

步骤4,利用普适性规则,对经过可信度判断的数据进行统一处理,剔除不符合规则的数据,完成数据的最终过滤;

步骤5,利用系统融合算法对最终过滤的数据进行融合计算,输出单一数据源;

步骤6,重复上述步骤1-5,持续更新单一数据源,直到原始数据源不再产生新的数据为止。

本发明的有益效果:1、在多个数据源共同使用时,减少数据之间的冲突跳变,规避各类数据源之间因为时效性差异导致的数据错误覆盖,并为业内数据制定统一的标准;2、本发明保证了多个数据源融合后的数据准确、及时、有效与稳定。

附图说明

图1为基于规则和可信度的多源数据融合系统架构图;

图2为基于规则和可信度的多源数据融合方法流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明的实施例是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

实施例1

本实施例以民航数据为例,对本申请提供的基于规则和可信度的多源数据融合方法进行阐述(主要架构与流程如图1和图2所示)。

基于本发明提出的多源数据融合方法,首先对通过MQ队列方式的请求、Webservice的请求、Ftp方式的请求获取的民航数据,通过不同的解析方式,完成各类数据的格式统一。

然后,规则模块根据数据系统的历史运行,总结归纳的数据合理规则。分为普适性的规则和非普适性的规则:a.普适性的规则,是相对于所有数据源通用的数据合理性筛选规则,比如,航班的实际起飞时间和计划起飞时间之间的误差到一定阈值进行屏蔽的规则,航班的实际飞行时间和航班的计划飞行时间误差达到一定比例屏蔽实际到达时间的规则,航班的状态渐进规则(例如航班的延误状态只能是在航班未起飞时有效的等等),一系列针对各字段的取值规则很多,不一一阐述。b.非普适性的规则,是针对各数据源单独的数据筛选规则,由于各数据源的差异性,比如A数据源的实际起飞时间在一定时间范围内才可用;B数据源的登机口命名特殊,需要转换成通用的数值再使用;C数据源的飞机停泊位在满足一定的匹配关系才可使用,等等。利用非普适性规则对各类民航数据进行处理,剔除不符合规则的数据,完成数据的初步过滤。

接下来,根据民航数据的特点,构造包含相应规则和权重的优先级算法,所述规则和权重,比如,针对登机口数据通过历史大数据统计各数据源的准确性,发现A数据优于B,则在使用登机口数据时,会优先使用A数据源提供的登机口;针对值机柜台数据通过历史大数据统计各数据源的准确性,发现C数据源的值机柜台没有D数据源的值机柜台详细(例如C提供的A区,D提供的是A1-A2柜台),在选取数据时会优先使用D数据源提供的值机柜台数据。

由于获得的一个航班数据有多条记录,只是每条记录的同一个字段可能存在多条不一样的值,优先级算法会针对这些字段不同数据源的值进行比较计算。选出一个最优的数据源为该字段提供最终值。

接着,利用上述普适性规则,对经过可信度判断的民航数据进行统一处理,剔除不符合规则的数据,完成民航数据的最终过滤。

最后,利用系统融合算法对最终过滤的数据进行融合计算,输出单一数据源给给各数据产品。

该过程是针对每个航班生成唯一的key值,key值由该航班的相关参数加密生成,作为航班的身份标识,针对key所对应的每个字段,按前面的步骤筛选完之后的数据,逐个字段更新需要更新的数值。

以上数据过滤和融合的过程,相对于单个航班来说,会在各渠道数据源每次提供数据后,不断重复,直到该航班已经落地并最终结束当天的运营状态为止。

显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。

相关技术
  • 一种基于规则和可信度的多源数据融合系统及方法
  • 一种基于规则的划分识别多候选项可信度的方法
技术分类

06120112986602